Finaliser et exécuter l'analyse de colonnes - 7.1

Guide utilisateur de Talend Data Services Platform Studio

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Services Platform
task
Création et développement
EnrichPlatform
Studio Talend
Après avoir défini la (les) colonne(s) à analyser et les indicateurs, définie dans Définir les colonnes à analyser et configurer les indicateurs, il se peut que vous vouliez filtrer les données que vous souhaitez analyser et que vous choisissiez le moteur à utiliser pour exécuter l'analyse de colonne(s).

Avant de commencer

  • Une analyse de colonne(s) doit être ouverte dans l'éditeur d'analyse de la perspective Profiling du studio. Pour plus d'informations, consultez Définir les colonnes à analyser.
  • Les indicateurs système ou personnalisés doivent être définis pour l'analyse de colonne. Pour plus d'informations, consultez Définition des indicateurs sur les colonnes.
  • Les bibliothèques SQL Explorer requises pour la qualité de données doivent être installées dans le studio.

Procédure

  1. Dans la vue Data Filter, saisissez une clause "WHERE" SQL pour filtrer les données sur lesquelles exécuter l'analyse, si nécessaire.
  2. Dans la vue Analysis Parameters, procédez comme suit :
    1. Dans le champ Number of connections per analysis, configurez le nombre de connexions concourantes autorisées par analyse pour la base de données sélectionnée.
      Vous pouvez configurer ce nombre selon les ressources disponibles de la base de données, c'est-à-dire le nombre de connexions concourantes que chaque base de données peut supporter.
      Remarque : Les connexions simultanées ne sont pas supportées lors d'une connexion à une base de données SQLite, ou une base de données Hive sur Spark. Les connexions simultanées sont supportées lorsque vous utilisez une connexion à un serveur Hive2.
    2. Dans la liste Execution engine, sélectionnez le moteur, Java ou SQL, à utiliser pour exécuter l'analyse.
      Si vous sélectionnez le moteur Java :
      • cochez la case Allow drill down pour explorer, dans la vue Analysis Results, les résultats de tous les indicateurs, excepté Row Count.
      • dans le champ Max number of rows kept per indicator, configurez le nombre de lignes de données à explorer.
    Pour plus d'informations concernant ces moteurs, consultez Utiliser le moteur Java ou SQL.
  3. Si vous avez défini des variables de contexte dans la vue Contexts de l'éditeur d'analyse, procédez comme suit :
    1. utilisez les vues Data Filter et Analysis Parameter pour configurer/sélectionner les variables de contexte et décider du nombre de connexions concourantes par analyse, respectivement.
    2. Dans la vue Context Group Settings, sélectionnez dans la liste l'environnement de contexte à utiliser pour exécuter l'analyse.
    Pour plus d'informations concernant les contextes et les variables, consultez Utilisation des variables de contexte dans les analyses.
  4. Sauvegardez l'analyse et appuyez sur F6 pour l'exécuter.
    L'éditeur passe à la vue Analysis Results.
    Lorsque vous utilisez le moteur SQL, l'analyse exécute de multiples indicateurs en parallèle et les résultats sont rafraîchis dans les graphiques pendant que l'analyse s'exécute.
    Voici quelques graphiques représentant les indicateurs Frequency Statistics et Text Statistics pour la colonne fullname.
    Pour plus d'informations concernant les indicateurs de fréquence et Text Statistics, consultez Statistiques avancées et Statistiques de texte respectivement.
    Ci-dessous se trouvent les diagrammes représentant la table de fréquence des modèles et la table de basse fréquence des modèles pour la colonne email.
    Dans la table, les modèles utilisent a et A pour représenter les valeurs des e-mails. Chaque modèle peut avoir jusqu'à 30 caractères. Si le nombre total de caractères dépasse 30, le modèle est représenté comme suit : aaaaaAAAAAaaaaaAAAAAaaaaaAAAAA...<nombre total de caractères>.
    Pour plus d'informations concernant ces indicateurs, consultez Statistiques de fréquence des modèles.
    Ci-dessous, vous pouvez voir les diagrammes représentant le résumé statistique pour la colonne total_sales.
    Pour plus d'informations concernant ces indicateurs, consultez Résumé statistique.
    Ci-dessous, vous pouvez voir les diagrammes représentant l'ordre de grandeur et les statistiques de fréquence de la loi de Benford pour la colonne total_sales.
    Pour plus d'informations concernant les statistiques de fréquence de la loi de Benford, utilisées comme indicateur dans des listes ou tables afin de détecter la fraude en comptabilité ou dans des dépenses, consultez Détection de la fraude.

Résultats

Si vous exécutez cette analyse à l'aide du moteur Java et que vous cochez la case Allow drill down dans la vue Analysis parameters, vous pouvez stocker localement les données analysées et y accéder via la vue Analysis Results > Data view. Vous pouvez utiliser le champ Max number of rows kept per indicator afin de décider du nombre de lignes de données que vous souhaitez rendre accessibles.

Lorsque vous choisissez le moteur Java, le système cherche des expressions régulières Java.

Remarque : Si vous choisissez de vous connecter à une base de données non supportée dans le studio (à l'aide des méthodes ODBC ou JDBC), il est recommandé d'utiliser le moteur Java afin d'exécuter les analyses de colonnes créées sur la base de données sélectionnée. Pour plus d'informations concernant le moteur Java, consultez Utiliser le moteur Java ou SQL.

Si vous exécutez cette analyse à l'aide du moteur SQL, vous pouvez voir la requête exécutée pour chaque indicateur attaché si vous cliquez-droit sur un indicateur et sélectionnez l'option View executed query dans le menu contextuel. Cependant, lorsque vous utilisez le moteur Java, les requêtes SQL ne sont pas accessibles.

Pour plus d'informations concernant les moteurs Java et SQL, consultez Utiliser le moteur Java ou SQL.