Finaliser et exécuter l'analyse de colonnes - Cloud

Finaliser et exécuter l'analyse de colonnes - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version

Cloud

8.0

Language

Français

Product

Talend Big Data

Talend Big Data Platform

Talend Cloud

Talend Data Fabric

Talend Data Integration

Talend Data Management Platform

Talend Data Services Platform

Talend ESB

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Studio Talend

Content

Création et développement

Last publication date

2024-04-16

Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Après avoir défini les colonnes à analyser et les indicateurs, il se peut que vous vouliez filtrer les données que vous souhaitez analyser et que vous choisissiez le moteur à utiliser pour exécuter l'analyse de colonne(s).

Avant de commencer

L'analyse de colonnes doit être ouverte dans l'éditeur d'analyse.
Les indicateurs système ou personnalisés doivent être définis pour l'analyse de colonne.
Les bibliothèques SQL Explorer requises pour la qualité de données doivent être installées dans le Studio Talend.

Procédure

Dans la vue Data Filter, saisissez une clause WHERE SQL pour filtrer les données sur lesquelles exécuter l'analyse, si nécessaire.
Dans la vue Analysis Parameters, procédez comme suit :
1. Dans le champ Number of connections per analysis, configurez le nombre de connexions concourantes autorisées par analyse pour la base de données sélectionnée.
  Vous pouvez configurer ce nombre selon les ressources disponibles de la base de données, c'est-à-dire le nombre de connexions concourantes que chaque base de données peut supporter.
  Remarque : Les connexions simultanées ne sont pas supportées lors d'une connexion à une base de données SQLite, ou une base de données Hive sur Spark. Les connexions simultanées sont supportées lorsque vous utilisez une connexion à un serveur Hive2.
2. Dans la liste Execution engine, sélectionnez le moteur, Java ou SQL, à utiliser pour exécuter l'analyse.
  Si vous sélectionnez le moteur Java :
  - cochez la case Allow drill down pour explorer, dans la vue Analysis Results, les résultats de tous les indicateurs. Cela ne s'applique pas à l'indicateur Row Count.
  - dans le champ Max number of rows kept per indicator, configurez le nombre de lignes de données à explorer.
Si vous avez défini des variables de contexte dans la vue Context (Contexte) de l'éditeur d'analyse, effectuez la procédure suivante :
1. utilisez les vues Data Filter et Analysis Parameter pour configurer/sélectionner des variables de contexte afin de filtrer les données et décider du nombre de connexions concourantes par analyse, respectivement.
2. Dans la vue Context Settings (Paramètres de contexte), sélectionnez dans la liste l'environnement de contexte à utiliser pour exécuter l'analyse.
Sauvegardez l'analyse et appuyez sur F6 pour l'exécuter.
L'éditeur passe à la vue Analysis Results.

Lorsque vous utilisez le moteur SQL, l'analyse exécute de multiples indicateurs en parallèle et les résultats sont rafraîchis dans les graphiques pendant que l'analyse s'exécute.

Voici quelques graphiques représentant les indicateurs Frequency Statistics et Text Statistics pour la colonne fullname.

Pour plus d'informations concernant les indicateurs de fréquence et Text Statistics, consultez Statistiques avancées et Statistiques de texte respectivement.

Ci-dessous se trouvent les diagrammes représentant la table de fréquence des modèles et la table de basse fréquence des modèles pour la colonne email.

Dans la table, les modèles utilisent a et A pour représenter les valeurs des e-mails. Chaque modèle peut avoir jusqu'à 30 caractères. Si le nombre total de caractères dépasse 30, le modèle est représenté comme suit : aaaaaAAAAAaaaaaAAAAAaaaaaAAAAA...<nombre total de caractères>.

Pour plus d'informations concernant ces indicateurs, consultez Statistiques de fréquence des modèles.

Ci-dessous, vous pouvez voir les diagrammes représentant le résumé statistique pour la colonne total_sales.

Pour plus d'informations concernant ces indicateurs, consultez Résumé statistique.

Ci-dessous, vous pouvez voir les diagrammes représentant les statistiques de fréquence de la loi de Benford, pour la colonne total_sales.

Pour plus d'informations concernant les statistiques de fréquence de la loi de Benford, utilisées comme indicateur dans des listes ou tables afin de détecter la fraude en comptabilité ou dans des dépenses, consultez Détection de la fraude.

Résultats

Si vous exécutez cette analyse à l'aide du moteur Java et que vous cochez la case Allow drill down dans la vue Analysis parameters, vous pouvez stocker localement les données analysées et y accéder via la vue Analysis Results > Data view. Vous pouvez utiliser le champ Max number of rows kept per indicator afin de décider du nombre de lignes de données que vous souhaitez rendre accessibles.

Lorsque vous choisissez le moteur Java, le système cherche des expressions régulières Java.

Si vous exécutez cette analyse à l'aide du moteur SQL, vous pouvez voir la requête exécutée pour chaque indicateur attaché si vous cliquez-droit sur un indicateur et sélectionnez l'option View executed query dans le menu contextuel. Cependant, lorsque vous utilisez le moteur Java, les requêtes SQL ne sont pas accessibles.

Menu contextuel d'une colonne dans la section Analyzed Columns (Colonnes analysées).

Pour plus d'informations concernant le moteur Java, consultez Utiliser le moteur Java ou SQL.