Créer une analyse de corrélation temporelle

Talend Real-time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.4
EnrichProdName
Talend Real-Time Big Data Platform
task
Qualité et préparation de données
Création et développement
EnrichPlatform
Studio Talend

Dans l'exemple ci-dessous, l'objectif est de créer une analyse de corrélation temporelle afin de calculer les dates de naissance minimale et maximale pour chaque pays listé dans la colonne nominale sélectionnée. Deux colonnes sont utilisées pour cette analyse : birthdate et country.

Note

Les analyses de corrélation temporelle sont possibles sur les colonnes de bases de données. Vous ne pouvez utiliser cette analyse sur des connexions fichiers.

Prérequis : Au moins une connexion à une base de données doit être définie dans la perspective Profiling du studio. Pour plus d'informations, consultez Créer des connexions aux différentes sources de données.

Définir l'analyse

  1. Dans la vue DQ Repository, développez le nœud Data Profiling.

  2. Cliquez-droit sur le dossier Analyses et sélectionnez New Analysis.

    L'assistant [Create New Analysis] s'ouvre.

  3. Commencez à saisir time correlation analysis dans le champ de filtre, sélectionnez Time Correlation Analysis et cliquez sur Next. Si votre studio est en français, saisissez analyse de corrélation temporelle.

  4. Dans le champ Name, saisissez un nom pour l'analyse.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  5. Définissez les métadonnées de l'analyse : Purpose, Description et Author (objectif, description et nom de l'auteur) dans les champs correspondants, puis cliquez sur Finish.

    Un dossier pour la nouvelle analyse créée s'affiche sous le dossier Analysis dans la vue DQ Repository. L'éditeur d'analyse s'ouvre sur les métadonnées de l'analyse.

Sélectionner les colonnes à analyser et configurer les paramètres d'analyse

  1. Dans l'éditeur d'analyse et dans la liste Connection, sélectionnez la connexion à la base de données sur laquelle exécuter l'analyse.

    Les analyses de corrélation temporelle sont possibles sur les colonnes de bases de données. Vous pouvez modifier votre connexion à votre base de données en sélectionnant une autre base dans la liste Connection. Si les colonnes analysées n'existent pas dans la nouvelle connexion à la base de données que vous souhaitez définir, vous recevrez un message d'avertissement vous permettant de continuer et d'annuler l'opération

  2. Cliquez sur Select Columns pour ouvrir la boîte de dialogue [Column Selection] et sélectionner les colonnes, ou glissez-les directement de la vue DQ Repository dans la vue Analyzed Columns.

    Si vous cliquez-droit sur une colonne listée dans la vue Analyzed Columns et que vous sélectionnez Show in DQ Repository view, la colonne sélectionnée sera automatiquement située sous la connexion correspondante dans l'arborescence.

  3. Au besoin, cliquez sur l'icône dans la vue Indicators afin d'ouvrir une boîte de dialogue dans laquelle vous pouvez définir le seuil pour chaque indicateur.

    Les indicateurs représentant les statistiques simples sont par défaut attachés à ce type d'analyse.

  4. Dans la vue Data Filter, saisissez une clause WHERE SQL pour filtrer les données sur lesquelles exécuter l'analyse, si nécessaire.

  5. Dans la vue Analysis Parameter et dans le champ Number of connections per analysis, configurez le nombre de connexions concourantes autorisées par analyse pour la connexion à la base de données sélectionnée, si nécessaire.

    Vous pouvez configurer ce nombre selon les ressources disponibles de la base de données. Ce nombre est le nombre de connexions concourantes que chaque base de données peut supporter.

  6. Si vous avez défini des variables de contexte dans la vue Contexts de l'éditeur d'analyse :

    • utilisez les vues Data Filter et Analysis Parameter pour configurer/sélectionner les variables de contexte afin de filtrer les données et décider le nombre de connexions concourantes par analyse, respectivement.

    • dans la vue Context Group Settings, sélectionnez dans la liste l'environnement de contexte que vous souhaitez utiliser pour exécuter l'analyse.

    Pour plus d'informations concernant les contextes et les variables, consultez Utilisation des variables de contexte dans les analyses.

  7. Appuyez sur F6 afin d'exécuter l'analyse de comparaison de colonnes.

    L'éditeur passe à la vue Analysis Results pour afficher les résultats.

    Pour plus d'informations sur les résultats d'analyse, consultez Explorer les résultats d'analyse.