Mise en correspondance de clés primaires et étrangères - 6.1

Talend Data Management Platform Studio Guide utilisateur

EnrichVersion
6.1
EnrichProdName
Talend Data Management Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Vous pouvez créer une analyse faisant correspondre les clés étrangères dans une table aux clés primaires d'une autre table, et vice versa. Cette analyse de redondance supporte uniquement les tables de bases de données.

Prérequis : Au moins une connexion à une base de données doit être définie dans la perspective Profiling du studio. Pour plus d'informations, consultez Se connecter à une base de données.

Pour faire correspondre les clés primaires et étrangères dans des tables, procédez comme suit :

Définir l'analyse

  1. Dans la vue DQ Repository, développez le nœud Data Profiling.

  2. Cliquez-droit sur le dossier Analyses et sélectionnez New Analysis.

    L'assistant [Create New Analysis] s'ouvre.

  3. Dans le champ de filtre, commencez à saisir redundancy analysis, sélectionnez Redundancy Analysis et cliquez sur le bouton Next. Si votre studio est en français, saisissez analyse de redondance.

  4. Dans le champ Name, saisissez un nom pour l'analyse.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  5. Définissez les métadonnées de l'analyse : Purpose, Description et Author (objectif, description et nom de l'auteur) dans les champs correspondants puis cliquez sur Finish pour fermer l'assistant [Create New Analysis].

    Un fichier pour l'analyse nouvellement créée s'affiche sous le nœud Analysis de la vue DQ Repository. L'éditeur d'analyse s'ouvre avec les métadonnées définies de l'analyse.

Sélectionner les clés primaires et étrangères

  1. Cliquez sur Analyzed Column Sets pour afficher la vue où définir l'analyse.

    Dans cet exemple, l'objectif est de faire correspondre les clés étrangères de la colonne customer_id de la table sales_fact_1998 aux clés primaires de la colonne customer_id de la table customer, et vice versa. Ce processus identifiera les relations entre les deux tables, pour montrer, par exemple, si chaque client a passé une commande en 1998.

  2. Dans la liste Connection, sélectionnez la base de données à laquelle vous souhaitez vous connecter. Ce champ liste toutes les connexions créées dans le Studio ainsi que le nom des bases de données correspondantes.

  3. Cliquez sur Select columns for the A set pour ouvrir la boîte de dialogue [Column Selection].

    Note

    Si vous souhaitez vérifier la validité des clés étrangères, sélectionnez la colonne les contenant, pour l'ensemble A, et la colonne contenant les clés primaires, pour l'ensemble B.

  4. Développez le nœud DB Connections puis la connexion à la base de données et parcourez les catalogues/schémas pour atteindre la table contenant la colonne que vous souhaitez faire correspondre. Dans cet exemple, la colonne à analyser est customer_id, qui contient les clés étrangères.

    Note

    Vous pouvez filtrer la liste des tables ou des colonnes en saisissant le texte souhaité dans les champs Table filter ou Column filter respectivement. La liste affiche uniquement les tables/colonnes correspondant au texte saisi.

  5. Cliquez sur le nom de la table pour afficher toutes ses colonnes dans le panneau de droite de la boîte de dialogue [Column Selection].

  6. Dans la liste à droite, cochez la case de la colonne contenant les clés étrangères puis cliquez sur OK.

    Note

    Vous pouvez glisser les colonnes à analyser directement de la vue DQ Repository dans l'éditeur.

    Si vous cliquez-droit sur l'une des colonnes listées dans la vue Analyzed Columns et que vous sélectionnez Show in DQ Repository view, la colonne sélectionnée sera automatiquement placée sous la connexion correspondante dans l'arborescence.

  7. Cliquez sur Select Columns from the B set et suivez les mêmes étapes afin de sélectionner la colonne contenant les clés primaires, ou glissez-la de la vue DQ Repository dans le panneau de droite.

    Note

    Si vous cochez la case Compute only number of rows not in B, vous chercherez toutes les clés primaires manquantes dans les colonnes de l'ensemble B.

  8. Si nécessaire, cliquez sur Data Filter dans l'éditeur d'analyse pour afficher la vue dans laquelle vous pouvez définir un filtre sur chaque colonne analysée.

  9. Cliquez sur l'icône de sauvegarde en haut de l'éditeur puis appuyez sur F6 pour exécuter cette analyse de correspondance de clés. Un message de confirmation s'ouvre.

  10. Lisez le message de confirmation et cliquez sur OK si vous souhaitez continuer l'opération.

    La vue Analysis Results s'ouvre pour afficher les résultats de l'analyse.

Note

L'exécution de ce type d'analyse peut prendre un moment. Attendez jusqu'à ce que la vue Analysis Results s'ouvre automatiquement et affiche les résultats d'analyse.

Dans cet exemple, chaque clé étrangère de la table sales_fact_1998 est identifiée par une clé primaire dans la table customer. Cependant, 98.22% des clés primaires de la table customer ne peuvent être identifiées par les clés étrangères de la table sales_fact_1998. Ces clés primaires correspondent aux clients n'ayant rien commandé en 1998.

Dans cette vue, vous pouvez également accéder aux données analysées via l'explorateur de données.

Pour accéder aux lignes de données analysées, cliquez-droit sur l'une des lignes de la table et sélectionnez :

Option

Pour...

View match rows

accéder à une liste de toutes les lignes pouvant correspondre dans les deux ensembles de colonnes identiques.

View not match rows

accéder à une liste de toutes les lignes ne pouvant pas correspondre dans les deux ensembles de colonnes identiques.

View rows

accéder à une liste de toutes les lignes des deux ensembles de colonnes identiques.

Avertissement

L'explorateur de données ne supporte pas les connexions dont le nom d'utilisateur est vide, par exemple la connexion en session unique (Single sign-on) de MS SQL Server. Si vous analysez des données à l'aide d'une de ces connexions et que vous essayez de visualiser les lignes et les valeurs des données dans la perspective Data Explorer, un message d'avertissement apparaît et vous demande de configurer vos informations de connexion au serveur SQL.

La capture d'écran ci-dessous liste toutes les lignes analysées dans les deux colonnes.

Note

Dans l'éditeur SQL, vous pouvez sauvegarder la requête exécutée et l'afficher sous les nœuds Libraries > Source Files de la vue DQ Repository si vous cliquez sur l'icône de sauvegarde dans la barre d'outils de l'éditeur. Pour plus d'informations, consultez Sauvegarder les requêtes exécutées sur les indicateurs.

Pour plus d'informations concernant l'interface de la perspective Data Explorer, consultez Fenêtre principale de la perspective Data Explorer.