Créer une analyse de corrélation numérique - 6.1

Talend MDM Platform Studio Guide utilisateur

EnrichVersion
6.1
EnrichProdName
Talend MDM Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Dans l'exemple ci-dessous, l'objectif est de créer une analyse de corrélation numérique pour calculer l'âge moyen du personnel de plusieurs entreprises situées dans différents états. Trois colonnes des bases de données sont utilisées pour l'analyse : STATE, AGE et COMPANY.

Note

Les analyses de corrélations nominales sont possibles uniquement sur les colonnes de bases de données. Vous ne pouvez utiliser cette analyse sur les connexions aux fichiers.

Prérequis : Au moins une connexion à une base de données doit être définie dans la perspective Profiling du studio. Pour plus d'informations, consultez Se connecter à une base de données.

Pour créer une analyse de corrélation numérique, procédez comme suit :

Définir l'analyse

  1. Dans la vue DQ Repository, développez le dossier Data Profiling.

  2. Cliquez-droit sur le dossier Analyses et sélectionnez New Analysis.

    L'assistant [Create New Analysis] s'ouvre.

  3. Commencez à saisir numerical correlation analysis dans le champ de filtre, sélectionnez Numerical Correlation Analysis puis cliquez sur le bouton Next. Si votre studio est en français, saisissez analyse de corrélation numérique.

  4. Dans le champ Name, saisissez un nom pour l'analyse courante.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  5. Définissez les métadonnées de l'analyse : Purpose, Description et Author (objectif, description et nom de l'auteur) dans les champs correspondants, puis cliquez sur Finish.

    Un dossier pour la nouvelle analyse s'affiche dans le dossier Analysis de la vue DQ Repository. L'éditeur d'analyse s'ouvre sur les métadonnées de l'analyse.

Sélectionner les colonnes à analyser et configurer les paramètres d'analyse

  1. Dans l'éditeur d'analyse et dans la liste Connection, sélectionnez la connexion à la base de données sur laquelle exécuter l'analyse.

    Les analyses de corrélations nominales sont disponibles uniquement pour les colonnes des bases de données. Vous pouvez modifier votre connexion à votre base de données en sélectionnant une autre base dans la liste Connection. Si les colonnes affichées dans la vue Analyzed Columns n'existent pas dans la nouvelle base de données définie, vous recevrez un message d'avertissement vous permettant de continuer et d'annuler l'opération.

  2. Cliquez sur Select columns to analyze pour ouvrir la boîte de dialogue [Column Selection].

  3. Parcourez les catalogues/schémas de votre connexion à la base de données jusqu'à la colonne (les colonnes) que vous souhaitez analyser.

    Vous pouvez filtrer la liste des tables ou des colonnes en saisissant le texte souhaité dans les champs Table filter ou Column filter respectivement. La liste affiche uniquement les tables/colonnes correspondant au texte saisi.

  4. Cliquez sur le nom de la table pour afficher toutes ses colonnes dans le panneau de droite de la boîte de dialogue [Column Selection].

  5. Dans la liste des colonnes, cochez la(es) case(s) de la (des) colonne(s) que vous souhaitez analyser, puis cliquez sur OK.

    Dans cet exemple, l'objectif est de calculer l'âge moyen du personnel de plusieurs entreprises situées dans différents états. Les colonnes à analyser sont AGE, COMPANY et STATE.

    Les colonnes sélectionnées s'affichent dans la vue Analyzed Column de l'éditeur d'analyse.

    Vous pouvez glisser les colonnes à analyser directement à partir de la connexion à la base de données correspondante de la vue DQ Repository dans la zone Analyzed Columns.

    Si vous cliquez-droit sur une colonne listée dans la vue Analyzed Columns et que vous sélectionnez Show in DQ Repository view, la colonne sélectionnée sera automatiquement située sous la connexion correspondante dans l'arborescence.

  6. Dans la vue Indicators, cliquez sur l'icône pour ouvrir une boîte de dialogue dans laquelle vous pouvez paramétrer des seuils pour chaque indicateur.

    Les indicateurs représentant les statistiques simples sont attachés par défaut à ce type d'analyse.

  7. Dans la vue Data Filter, saisissez une clause WHERE SQL pour filtrer les données sur lesquelles exécuter l'analyse, si nécessaire.

  8. Dans la vue Analysis Parameter et dans le champ Number of connections per analysis, configurez le nombre de connexions concourantes autorisées par analyse pour la connexion à la base de données sélectionnée, si besoin.

    Vous pouvez configurer ce nombre selon les ressources disponibles de la base de données. Ce nombre est le nombre de connexions concourantes que chaque base de données peut supporter.

  9. Si vous avez défini des variables de contexte dans la vue Contexts de l'éditeur d'analyse :

    • utilisez les vues Data Filter et Analysis Parameter pour configurer/sélectionner les variables de contexte afin de filtrer les données et décider le nombre de connexions concourantes par analyse, respectivement.

    • Dans la vue Context Group Settings, sélectionnez dans la liste l'environnement de contexte que vous souhaitez utiliser pour exécuter l'analyse.

    Pour plus d'informations concernant les contextes et les variables, consultez Utilisation des variables de contexte dans les analyses.

  10. Cliquez sur l'icône de sauvegarde en haut de l'éditeur, et appuyez sur F6 pour exécuter l'analyse de comparaison de colonnes. Les résultats graphiques s'affichent dans le panneau Graphics à droite de l'éditeur.

Les données affichées dans le graphique à bulles ont différentes couleurs. La légende précise quelle couleur se réfère à quel type de données.

Dans le graphique généré, vous pouvez :

  • placer votre souris sur l'une des bulles afin d'afficher les valeurs des données corrélées sur cette position,

  • cliquer-droit sur l'une des bulles et sélectionner :

Option

Pour...

Show in full screen

ouvrir le graphique généré en plein écran.

View rows

accéder à une liste de toutes les lignes analysées pour la position sélectionnée.

La capture d'écran ci-dessous montre un exemple de l'éditeur SQL affichant les valeurs des données corrélées pour la position sélectionnée.

Dans l'éditeur SQL, vous pouvez sauvegarder la requête exécutée et la lister sous les dossiers Libraries > Source Files dans la vue DQ Repository si vous cliquez sur l'icône de sauvegarde dans la barre d'outils de l'éditeur. Pour plus d'informations, consultez Sauvegarder les requêtes exécutées sur les indicateurs.

Pour plus d'informations concernant le graphique à bulles, consultez la section ci-dessous.