Accéder au contenu principal Passer au contenu complémentaire

Finaliser et exécuter l'analyse de colonnes

Après avoir défini les colonnes à analyser et les indicateurs, il se peut que vous vouliez filtrer les données que vous souhaitez analyser et que vous choisissiez le moteur à utiliser pour exécuter l'analyse de colonne(s).

Avant de commencer

  • L'analyse de colonnes doit être ouverte dans l'éditeur d'analyse.
  • Les indicateurs système ou personnalisés doivent être définis pour l'analyse de colonne.
  • Les bibliothèques SQL Explorer requises pour la qualité de données doivent être installées dans le Studio Talend.

Procédure

  1. Dans la vue Data Filter, saisissez une clause WHERE SQL pour filtrer les données sur lesquelles exécuter l'analyse, si nécessaire.
  2. Dans la vue Analysis Parameters, procédez comme suit :
    1. Dans le champ Number of connections per analysis, configurez le nombre de connexions concourantes autorisées par analyse pour la base de données sélectionnée.
      Vous pouvez configurer ce nombre selon les ressources disponibles de la base de données, c'est-à-dire le nombre de connexions concourantes que chaque base de données peut supporter.
      Note InformationsRemarque : Les connexions simultanées ne sont pas supportées lors d'une connexion à une base de données SQLite, ou une base de données Hive sur Spark. Les connexions simultanées sont supportées lorsque vous utilisez une connexion à un serveur Hive2.
    2. Dans la liste Execution engine, sélectionnez le moteur, Java ou SQL, à utiliser pour exécuter l'analyse.
      Si vous sélectionnez le moteur Java :
      • cochez la case Allow drill down pour explorer, dans la vue Analysis Results, les résultats de tous les indicateurs. Cela ne s'applique pas à l'indicateur Row Count.
      • dans le champ Max number of rows kept per indicator, configurez le nombre de lignes de données à explorer.
  3. Si vous avez défini des variables de contexte dans la vue Context (Contexte) de l'éditeur d'analyse, effectuez la procédure suivante :
    1. utilisez les vues Data Filter et Analysis Parameter pour configurer/sélectionner des variables de contexte afin de filtrer les données et décider du nombre de connexions concourantes par analyse, respectivement.
    2. Dans la vue Context Settings (Paramètres de contexte), sélectionnez dans la liste l'environnement de contexte à utiliser pour exécuter l'analyse.
  4. Sauvegardez l'analyse et appuyez sur F6 pour l'exécuter.
    L'éditeur passe à la vue Analysis Results.
    Lorsque vous utilisez le moteur SQL, l'analyse exécute de multiples indicateurs en parallèle et les résultats sont rafraîchis dans les graphiques pendant que l'analyse s'exécute.
    Voici quelques graphiques représentant les indicateurs Frequency Statistics et Text Statistics pour la colonne fullname.
    Résultats graphiques dans les sections Value Frequency (Fréquence des valeurs) et Text Statistics (Statistiques de texte).
    Pour plus d'informations concernant les statistiques de fréquence et les statistiques de texte, consultez Statistiques avancées et Statistiques de texte, respectivement.
    Ci-dessous se trouvent les diagrammes représentant la table de fréquence des modèles et la table de basse fréquence des modèles pour la colonne email.
    Résultats graphiques dans les sections Pattern Frequency (Fréquence des modèles) et Pattern Low Frequency (Basse fréquence des modèles).
    Dans la table, les modèles utilisent a et A pour représenter les valeurs des e-mails. Chaque modèle peut avoir jusqu'à 30 caractères. Si le nombre total de caractères dépasse 30, le modèle est représenté comme suit : aaaaaAAAAAaaaaaAAAAAaaaaaAAAAA...<nombre total de caractères>.
    Pour plus d'informations sur ces indicateurs, consultez Statistiques de fréquence des modèles.
    Ci-dessous, vous pouvez voir les diagrammes représentant le résumé statistique pour la colonne total_sales.
    Résultats graphiques dans la section Summary Statistics (Résumé statistique).
    Pour plus d'informations sur ces indicateurs, consultez Résumé statistique.
    Ci-dessous, vous pouvez voir les diagrammes représentant les statistiques de fréquence de la loi de Benford, pour la colonne total_sales.
    Résultats graphiques dans la section Benford Law (Loi de Benford).
    Pour plus d'informations concernant les statistiques de fréquence de la loi de Benford, utilisées comme indicateur dans des listes ou tables afin de détecter la fraude en comptabilité ou dans des dépenses, consultez Détection de la fraude.

Résultats

Si vous exécutez cette analyse à l'aide du moteur Java et que vous cochez la case Allow drill down dans la vue Analysis parameters, vous pouvez stocker localement les données analysées et y accéder via la vue Analysis Results > Data view. Vous pouvez utiliser le champ Max number of rows kept per indicator afin de décider du nombre de lignes de données que vous souhaitez rendre accessibles.

Lorsque vous choisissez le moteur Java, le système cherche des expressions régulières Java.

Si vous exécutez cette analyse à l'aide du moteur SQL, vous pouvez voir la requête exécutée pour chaque indicateur attaché si vous cliquez-droit sur un indicateur et sélectionnez l'option View executed query dans le menu contextuel. Cependant, lorsque vous utilisez le moteur Java, les requêtes SQL ne sont pas accessibles.

Menu contextuel d'une colonne dans la section Analyzed Columns (Colonnes analysées).

Pour plus d'informations sur le moteur Java, consultez Utiliser le moteur Java ou SQL.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !