Détecter des anomalies dans des colonnes (Analyse de dépendance fonctionnelle) - 6.2

Talend Open Studio for Data Quality Guide utilisateur

EnrichVersion
6.2
EnrichProdName
Talend Open Studio for Data Quality
task
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce type d'analyse vous permet de détecter des anomalies dans les dépendances des colonnes à travers la définition de colonnes "déterminantes" ou "dépendantes" et d'analyser les valeurs des colonnes dépendantes par rapport à celles des colonnes déterminantes. Cette analyse supporte uniquement les tables de bases de données.

Ce type d'analyse détecte à quel point une valeur dans une colonne déterminante détermine fonctionnellement une autre valeur dans une colonne dépendante.

Cela peut vous permettre d'identifier les problèmes contenus dans vos données, comme les valeurs invalides. Par exemple, si vous analysez les dépendances entre une colonne contenant des codes postaux des États-Unis et une colonne contenant des états des États-Unis, le même code postal devra correspondre au même état. L'exécution de l'analyse de dépendance fonctionnelle sur ces deux colonnes montrera s'il y a une violation de cette dépendance.

Prérequis : Au moins une connexion à une base de données doit être définie dans la perspective Profiling du studio. Pour plus d'informations, consultez Créer des connexions aux différentes sources de données.

Définir l'analyse

  1. Dans la vue DQ Repository, développez le nœud Data Profiling.

  2. Cliquez-droit sur le dossier Analyses et sélectionnez New Analysis.

    L'assistant [Create New Analysis] s'ouvre.

  3. Dans le champ de filtre, commencez à saisir functional dependency analysis, sélectionnez Functional Dependency Analysis puis cliquez sur le bouton Next. Si votre studio est en français, saisissez analyse de dépendance fonctionnelle.

  4. Dans le champ Name, saisissez un nom pour l'analyse.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  5. Définissez les métadonnées de l'analyse : Purpose, Description et Author (Objectif, description et nom de l'auteur) dans les champs correspondants, puis cliquez sur Next.

Sélectionner les colonnes déterminantes ou dépendantes

  1. Développez le nœud DB connections, parcourez l'arborescence jusqu'à la base de données que vous souhaitez analyser, sélectionnez-la et cliquez sur Finish pour fermer l'assistant [New Analysis].

    Un dossier pour l'analyse de dépendance fonctionnelle nouvellement créée s'affiche sous le dossier Analysis dans la vue DQ Repository, et l'éditeur d'analyse s'ouvre avec les métadonnées définies.

    La zone Data Preview affiche un échantillon de données des colonnes de la table.

  2. Dans le panneau Left Column, cliquez sur A Columns Set pour ouvrir la boîte de dialogue [Column Selection].

    Vous pouvez sélectionner le premier ensemble de colonnes par rapport auquel vous souhaitez analyser les valeurs dans les colonnes dépendantes. Vous pouvez également glisser les colonnes directement à partir de l'arborescence DQ Repository dans le panneau de gauche.

    L'objectif de cet exemple est d'évaluer les enregistrements présents dans la colonne city et ceux de la colonne state_province l'un par rapport à l'autre, afin de voir si les noms d'états correspondent aux noms des villes et vice versa.

  3. Dans la boîte de dialogue [Column Selection], développez le nœud DB Connections ainsi que le dossier de connexion à la base de données correspondante et parcourez jusqu'à (aux) colonne(s) que vous souhaitez définir comme colonnes déterminantes.

    Vous pouvez filtrer la liste des tables ou des colonnes en saisissant le texte souhaité dans les champs Table filter ou Column filter, respectivement. La liste affiche uniquement les tables/colonnes correspondant au texte saisi.

  4. Cochez la case de la (des) colonne(s) puis cliquez sur OK.

    La (les) colonne(s) s'affiche(nt) dans le panneau Left Columns de la vue Analyzed Columns Set. Dans cet exemple, la colonne city est sélectionnée comme colonne déterminante.

  5. Répétez l'opération pour sélectionner la (les) colonne(s) dépendante(s), ou glissez-la (les) de la vue DQ Repository dans le panneau Right Columns. Dans cet exemple, la colonne state_province est choisie comme colonne dépendante. Cette analyse montrera si les noms des états correspondent aux noms des villes.

    Cliquez-droit sur l'une des colonnes listées dans la vue Analyzed Columns et sélectionnez Show in DQ Repository view. La colonne sélectionnée sera automatiquement située sous la connexion correspondante dans l'arborescence.

  6. Cliquez sur l'onglet Reverse columns pour inverser automatiquement les colonnes définies et ainsi évaluer la relation inverse, quel nom de ville correspond à quel nom d'état.

    Vous pouvez vous connecter à une base de données différente en sélectionnant une autre connexion dans la liste Connection. Ce champ liste toutes les connexions créées dans le Studio ainsi que le nom des bases de données correspondantes. Si les tables affichées dans la vue Analyzed Tables n'existent pas dans la nouvelle connexion, un message d'avertissement s'ouvre et vous permet de continuer ou d'annuler l'opération.

Finaliser et exécuter l'analyse de dépendance fonctionnelle

  1. Dans la vue Data Filter, saisissez une clause WHERE SQL pour filtrer les données sur lesquelles exécuter l'analyse, si nécessaire.

  2. Dans la vue Analysis Parameter et dans le champ Number of connections per analysis, configurez le nombre de connexions concourantes autorisées par analyse dans la base de données sélectionnée, si nécessaire

    Vous pouvez configurer ce nombre selon les ressources disponibles de la base de données, c'est-à-dire le nombre de connexions concourantes que chaque base de données peut supporter.

  3. Si vous avez défini vos variables de contexte dans la vue Contexts dans l'éditeur d'analyse :

    • utilisez les vues Data Filter et Analysis Parameter pour configurer/sélectionner les variables de contexte pour filtrer des données et décider du nombre de connexions concourantes par analyse, respectivement.

    • dans la vue Context Group Settings, sélectionnez dans la liste l'environnement de contexte à utiliser pour exécuter l'analyse.

    Pour plus d'informations concernant les contextes et les variables, consultez Utilisation des variables de contexte dans les analyses.

  4. Cliquez sur l'icône de sauvegarde en haut de l'éditeur puis appuyez sur F6 pour exécuter l'analyse.

    Une fenêtre d'informations s'ouvre pour confirmer que l'opération est en cours. Les résultats de l'analyse de dépendance fonctionnelle des colonnes s'affichent dans la vue Analysis Results.

    Cette analyse de dépendance fonctionnelle évalue les enregistrements présents dans la colonne city et ceux de la colonne state_province l'un par rapport à l'autre afin de voir si les noms d'états correspondent aux noms des villes, et vice versa. Les résultats retournés indiquent la force de la dépendance fonctionnelle pour chaque colonne déterminante. Les enregistrements ne correspondant pas sont indiqués en rouge.

    La colonne #Match dans la table de résultats liste le nombre de valeurs déterminantes distinctes dans chacune des colonnes analysées. La colonne #row dans les résultats d'analyse liste les relations entre l'attribut déterminant et l'attribut dépendant. Dans cet exemple, #Match dans la première ligne de la table des résultats représente le nombre de villes distinctes et #row représente le nombre de paires distinctes (city, state_province). Puisque ces deux nombres ne sont pas équivalents, la relation de dépendance fonctionnelle est seulement partielle et le ratio des nombres (%Match) mesure la force de la dépendance. Lorsque ces nombres sont équivalents, la relation de dépendance fonctionnelle est "stricte", c'est-à-dire que chaque ville apparaît une seule fois avec chaque état.

    Note

    La présence de valeurs nulls dans l'une des deux colonnes analysées diminuera la force de la dépendance. Le système n'ignore pas les valeurs nulls mais les considère comme des valeurs violant la dépendance fonctionnelle.

  5. Dans la vue Analysis Results, cliquez-droit sur l'une des lignes de dépendance et sélectionnez :

    Option

    Pour...

    View valid/invalid rows

    accéder à une liste, dans l'éditeur SQL, de toutes les lignes valides/invalides mesurées par rapport à l'analyse de dépendance fonctionnelle.

    View valid/invalid values

    accéder à une liste, dans l'éditeur SQL, de toutes les valeurs valides/invalides mesurées par rapport à l'analyse de dépendance fonctionnelle.

    View detailed valid/detailed invalid values

    accéder à une liste, dans l'éditeur SQL, de toutes les valeurs valides/invalides mesurées par rapport à l'analyse de dépendance fonctionnelle.

Dans l'éditeur SQL, vous pouvez sauvegarder la requête exécutée et l'afficher sous les nœuds Libraries > Source Files dans la vue DQ Repository si vous cliquez sur l'icône de sauvegarde dans la barre d'outils de l'éditeur. Pour plus d'informations, consultez Sauvegarder les requêtes exécutées sur les indicateurs.