Accéder au contenu principal Passer au contenu complémentaire

Comparaison de colonnes identiques dans différentes tables

Dans votre Studio Talend, vous pouvez créer une analyse comparant deux ensembles identiques de colonnes dans deux tables différentes. Cette analyse de redondance supporte uniquement les tables de bases de données.

Avant de commencer

Au moins une connexion à une base de données doit avoir été définie dans la perspective Profiling. Pour plus d'informations, consultez Se connecter à une base de données.

Dans cette vue, vous pouvez également accéder aux données actualisées via la perspective Data Explorer.

Pour accéder aux lignes de données analysées, cliquez-droit sur l'une des lignes de la table et sélectionnez une action à effectuer :
  • View match rows : pour accéder à une liste de toutes les lignes pouvant correspondre aux deux ensembles de colonnes identiques.
  • View not match rows : pour accéder à une liste de toutes les lignes ne pouvant pas correspondre aux deux ensembles de colonnes identiques.
  • View rows : pour accéder à une liste de toutes les lignes dans les deux ensembles de colonnes identiques.
Note InformationsAvertissement : L'explorateur de données ne supporte pas les connexions dont le nom d'utilisateur·trice est vide, par exemple avec l'authentification unique (SSO, Single Sign-On) de MS SQL Server. Si vous analysez des données à l'aide d'une de ces connexions et que vous essayez de visualiser les lignes et les valeurs des données dans la perspective Data Explorer , un message d'avertissement apparaît et vous demande de configurer vos informations de connexion au serveur SQL.

La capture d'écran ci-dessous montre la liste de toutes les lignes pouvant correspondre dans les deux ensembles, huit dans cet exemple.

Nombre de lignes correspondant dans les deux ensembles.

Dans l'éditeur SQL, vous pouvez sauvegarder la requête exécutée et la lister sous les dossiers Libraries > Source Files dans la vue DQ Repository, si vous cliquez sur l'icône de sauvegarde dans la barre d'outils de l'éditeur. Pour plus d'informations, consultez Sauvegarder les requêtes exécutées sur les indicateurs.

La capture d'écran ci-dessous illustre la liste de toutes les lignes ne pouvant correspondre dans les deux ensembles, trois dans cet exemple.

Nombre de lignes correspondant dans les deux ensembles.

Définir l'analyse de redondance

Procedure

  1. Dans la vue DQ Repository, développez le nœud Data Profiling.
  2. Cliquez-droit sur le dossier Analyses et sélectionnez New Analysis.
    Menu contextuel du nœud Analyses.
    L'assistant Create New Analysis s'ouvre.
  3. Dans le champ de filtre, commencez à saisir redundancy analysis, sélectionnez Redundancy Analysis dans la liste, puis cliquez sur Next.
  4. Dans le champ Name, saisissez un nom pour l'analyse.
    Note InformationsImportant:

    N'utilisez pas les caractères spéciaux suivants dans le nom des éléments : ~ ! ` # ^ * & \\ / ? : ; \ , . ( ) ¥ ' " « » < >

    Ces caractères seront remplacés par un "_" dans le système de fichiers et vous risquez de créer des doublons.

  5. Définissez les métadonnées de l'analyse (Purpose (Objectif), Description et Author (Auteur)) dans les champs correspondants puis cliquez sur Finish.

Sélectionner les colonnes à comparer

Procedure

  1. Développez le nœud DB connections, parcourez l'arborescence jusqu'à la base de données souhaitée, sélectionnez les colonnes que vous voulez analyser puis cliquez sur Finish pour fermer l'assistant.
    Un fichier pour l'analyse nouvellement créée apparaît sous le nœud Analysis dans la vue DQ Repository. L'éditeur d'analyse s'ouvre avec les métadonnées définies de l'analyse.
    Vue d'ensemble de la section Analysis Metadata (Analyse de métadonnées) dans l'onglet Analysis Settings (Paramètres d'analyse).
    L'affichage de l'éditeur d'analyse dépend des paramètres que vous avez configurés dans la fenêtre des Preferences (Préférences). Pour plus d'informations, consultez Configurer les préférences des éditeurs et des résultats d'analyse.
  2. Cliquez sur Analyzed Column Sets pour afficher la vue où analyser deux ensembles de colonnes identiques.
    Dans cet exemple, l'objectif est de comparer des colonnes identiques dans les tables account et account_back.
    Vue d'ensemble de la section Analysis Column Sets (Analyse d'ensembles de colonnes) dans l'onglet Analysis Settings (Paramètres d'analyse).
  3. Dans la liste Connection, sélectionnez la connexion à la base de données à laquelle vous souhaitez vous connecter.
    Dans cette liste, vous pouvez trouver toutes les connexions aux bases de données créées et centralisées dans le référentiel du Studio Talend.
  4. Cliquez sur A Column Set pour ouvrir la boîte de dialogue [Column Selection].
  5. Parcourez les catalogues/schémas de votre connexion à la base de données pour atteindre la table contenant les colonnes que vous souhaitez analyser.
    Vous pouvez filtrer la liste des tables ou des colonnes en saisissant le texte souhaité dans les champs Table filter ou Column filter respectivement. La liste affiche uniquement les tables/colonnes correspondant au texte saisi.
  6. Cliquez sur le nom de la table pour afficher toutes ses colonnes dans le panneau de droite de la boîte de dialogue [Column Selection].
  7. Dans la liste à droite, cochez la case des colonnes que vous souhaitez analyser et cliquez sur OK.
    Sélection des colonnes à analyser.
    Vous pouvez glisser les colonnes à analyser directement de la vue DQ Repository dans l'éditeur.
    Si vous cliquez-droit sur une colonne listée dans la vue Analyzed Columns et que vous sélectionnez Show in DQ Repository view, la colonne sélectionnée sera automatiquement située sous la connexion correspondante dans l'arborescence.
  8. Cliquez sur B Column B Set et suivez les mêmes étapes pour sélectionner le second ensemble de colonnes, ou glissez-le dans le panneau de droite.
  9. Si vous souhaitez rapprocher les données du jeu A de celles du jeu B et non l'inverse, cochez la case Compute only number of A rows not in B (Calculer uniquement le nombre de lignes A qui ne sont pas dans B).
  10. Cochez la case Ignore Null (Ignorer les nulls) si vous souhaitez ignorer les valeurs nulles lors du rapprochement.

Finaliser et exécuter l'analyse

Procedure

  1. Dans la vue Data Filter, saisissez une clause WHERE SQL pour filtrer les données sur lesquelles exécuter l'analyse, si nécessaire.
  2. Dans la vue Analysis Parameter et dans le champ Number of connections per analysis, configurez le nombre de connexions concourantes autorisées par analyse pour la base de données sélectionnée, si besoin.
    Vous pouvez configurer ce nombre selon les ressources disponibles de la base de données, c'est-à-dire le nombre de connexions concourantes que chaque base de données peut supporter.
  3. Si vous avez défini des variables de contexte dans la vue Context (Contexte) de l'éditeur d'analyse, effectuez la procédure suivante :
    1. Utilisez les vues Data Filter et Analysis Parameter pour configurer/sélectionner des variables de contexte afin de filtrer les données et décider du nombre de connexions simultanées par analyse, respectivement.
    2. Dans la vue Context Settings (Paramètres de contexte), sélectionnez dans la liste l'environnement de contexte à utiliser pour exécuter l'analyse.
    Pour plus d'informations concernant les contextes et les variables, consultez Utilisation des variables de contexte dans les analyses.
  4. Sauvegardez l'analyse et appuyez sur F6 pour l'exécuter.
    Un message de confirmation s'affiche.
  5. Cliquez sur OK si vous souhaitez continuer l'opération.

Results

La vue Analysis Results s'ouvre et affiche les résultats d'analyse.

Dans cet exemple, 72.73 % des données présentes dans les colonnes de la table account peuvent être rapprochées des mêmes données de la colonne de la table account_back.

Résultats de l'analyse dans la section Analysis Results (Résultats d'analyse).

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.