Comparaison de colonnes identiques dans différentes tables - 6.2

Talend Big Data Platform Studio Guide utilisateur

EnrichVersion
6.2
EnrichProdName
Talend Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Dans votre studio, vous pouvez créer une analyse comparant deux ensembles identiques de colonnes dans deux tables différentes. Cette analyse de redondance supporte uniquement les tables de bases de données.

Prérequis : Au moins une connexion à une base de données doit être définie dans la perspective Profiling de votre studio. Pour plus d'informations, consultez Créer des connexions aux différentes sources de données.

Définir l'analyse

  1. Dans la vue DQ Repository, développez le nœud Data Profiling.

  2. Cliquez-droit sur le dossier Analyses et sélectionnez New Analysis.

    L'assistant [Create New Analysis] s'ouvre.

  3. Dans le champ de filtre, commencez à saisir redundancy analysis et sélectionnez Redundancy Analysis dans la liste, puis cliquez sur Next. Si votre studio est en français, saisissez analyse de redondance.

  4. Dans le champ Name, saisissez un nom pour l'analyse.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  5. Définissez les métadonnées de l'analyse : Purpose, Description et Author (objectif, description et nom de l'auteur) dans les champs correspondants puis cliquez sur Next.

Sélectionner les colonnes à comparer

  1. Développez le nœud DB connections, parcourez l'arborescence jusqu'à la base de données souhaitée, sélectionnez les colonnes que vous voulez analyser puis cliquez sur Finish pour fermer l'assistant.

    Un fichier pour l'analyse nouvellement créée apparaît sous le nœud Analysis dans la vue DQ Repository. L'éditeur d'analyse s'ouvre avec les métadonnées définies de l'analyse.

    L'affichage de l'éditeur d'analyse dépend des paramètres que vous avez configurés dans la boîte de dialogue [Preferences]. Pour plus d'informations, consultez Configurer les préférences des éditeurs et des résultats d'analyse.

  2. Cliquez sur Analyzed Column Sets pour afficher la vue où analyser deux ensembles de colonnes identiques.

    Dans cet exemple, l'objectif est de comparer des colonnes identiques dans les tables account et account_back.

  3. Dans la liste Connection, sélectionnez la connexion à la base de données à laquelle vous souhaitez vous connecter.

    Dans cette liste, vous pouvez trouver toutes les connexions aux bases de données créées et centralisées dans le référentiel du studio.

  4. Cliquez sur A column Set pour ouvrir la boîte de dialogue [Column Selection].

  5. Parcourez les catalogues/schémas de votre connexion à la base de données pour atteindre la table contenant les colonnes que vous souhaitez analyser.

    Vous pouvez filtrer la liste des tables ou des colonnes en saisissant le texte souhaité dans les champs Table filter ou Column filter respectivement. La liste affiche uniquement les tables/colonnes correspondant au texte saisi.

  6. Cliquez sur le nom de la table pour afficher toutes ses colonnes dans le panneau de droite de la boîte de dialogue [Column Selection].

  7. Dans la liste à droite, cochez la case de(s) la colonne(s) que vous souhaitez analyser et cliquez sur OK.

    Vous pouvez glisser les colonnes à analyser directement de la vue DQ Repository dans l'éditeur.

    Si vous cliquez-droit sur l'une des colonnes listées dans la vue Analyzed Columns et que vous sélectionnez Show in DQ Repository view, la colonne sélectionnée sera automatiquement placée sous la connexion correspondante, dans l'arborescence.

  8. Cliquez sur B Column B Set et suivez les mêmes étapes pour sélectionner le second ensemble de colonnes, ou glissez-le dans le panneau de droite.

  9. Cochez la case Compute only number of A rows not in B si vous souhaitez faire correspondre les données de l'ensemble A aux données de l'ensemble B, et non vice versa.

    Finaliser et exécuter l'analyse

    1. Dans la vue Data Filter, saisissez une clause WHERE SQL pour filtrer les données sur lesquelles exécuter l'analyse, si nécessaire.

    2. Dans la vue Analysis Parameter et dans le champ Number of connections per analysis, configurez le nombre de connexions concourantes autorisées par analyse pour la base de données sélectionnée, si besoin.

      Vous pouvez configurer ce nombre selon les ressources disponibles de la base de données, c'est-à-dire le nombre de connexions concourantes que chaque base de données peut supporter.

    3. Si vous avez défini des variables de contexte dans la vue Contexts de l'éditeur d'analyse :

      • utilisez les vues Data Filter et Analysis Parameter pour configurer/sélectionner les variables de contexte et décider du nombre de connexions concourantes par analyse, respectivement.

      • dans la vue Context Group Settings, sélectionnez dans la liste l'environnement de contexte à utiliser pour exécuter l'analyse.

      Pour plus d'informations concernant les contextes et les variables, consultez Utilisation des variables de contexte dans les analyses.

    4. Sauvegardez l'analyse et appuyez sur F6 pour l'exécuter.

      Un message de confirmation s'affiche.

    5. Cliquez sur OK si vous souhaitez continuer l'opération.

      La vue Analysis Results s'ouvre et affiche les résultats d'analyse.

      Dans cet exemple, 72.73 % des données présentes dans les colonnes de la table account peuvent être rapprochées des mêmes données de la colonne de la table account_back.

Dans cette vue, vous pouvez également accéder aux données actualisées via la perspective Data Explorer.

Pour accéder aux lignes de données analysées, cliquez-droit sur l'une des lignes de la table et sélectionnez :

Option

Pour...

View match rows

accéder à une liste de toutes les lignes pouvant correspondre aux deux ensembles identiques de colonnes.

View not match rows

accéder à une liste de toutes les lignes ne pouvant correspondre aux deux ensembles identiques de colonnes.

View rows

accéder à une liste de toutes les lignes des ensembles de colonnes identiques.

Avertissement

L'explorateur de données ne supporte pas les connexions dont le nom d'utilisateur est vide, par exemple la connexion en session unique (Single sign-on) de MS SQL Server. Si vous analysez des données à l'aide d'une de ces connexions et que vous essayez de visualiser les lignes et les valeurs des données dans la perspective Data Explorer, un message d'avertissement apparaît et vous demande de configurer vos informations de connexion au serveur SQL.

La capture d'écran ci-dessous montre la liste de toutes les lignes pouvant correspondre dans les deux ensembles, huit dans cet exemple.

Dans l'éditeur SQL, vous pouvez sauvegarder la requête exécutée et l'afficher sous les nœuds Libraries > Source Files dans la vue DQ Repository si vous cliquez sur l'icône de sauvegarde, dans la barre d'outils de l'éditeur. Pour plus d'informations, consultez Sauvegarder les requêtes exécutées sur les indicateurs.

La capture d'écran ci-dessous illustre la liste de toutes les lignes ne pouvant correspondre dans les deux ensembles, trois dans cet exemple.

Pour plus d'informations concernant l'interface de la perspective Data Explorer, consultez Fenêtre principale de la perspective Data Explorer.