Disponible dans...Big Data Platform
Cloud API Services Platform
Cloud Big Data Platform
Cloud Data Fabric
Cloud Data Management Platform
Data Fabric
Data Management Platform
Data Services Platform
MDM Platform
Real-Time Big Data Platform
Après avoir défini les colonnes à analyser et les indicateurs, il se peut que vous vouliez filtrer les données que vous souhaitez analyser et que vous choisissiez le moteur à utiliser pour exécuter l'analyse de colonne(s).
Avant de commencer
- L'analyse de colonnes doit être ouverte dans l'éditeur d'analyse.
- Les indicateurs système ou personnalisés doivent être définis pour l'analyse de colonne.
- Les bibliothèques SQL Explorer requises pour la qualité de données doivent être installées dans le Studio.
Procédure
-
Dans la vue Data Filter, saisissez une clause WHERE SQL pour filtrer les données sur lesquelles exécuter l'analyse, si nécessaire.
-
Dans la vue Analysis Parameters, procédez comme suit :
-
Dans le champ Number of connections per analysis, configurez le nombre de connexions concourantes autorisées par analyse pour la base de données sélectionnée.
Vous pouvez configurer ce nombre selon les ressources disponibles de la base de données, c'est-à-dire le nombre de connexions concourantes que chaque base de données peut supporter.
Remarque : Les connexions simultanées ne sont pas supportées lors d'une connexion à une base de données SQLite, ou une base de données Hive sur Spark. Les connexions simultanées sont supportées lorsque vous utilisez une connexion à un serveur Hive2.
-
Dans la liste Execution engine, sélectionnez le moteur, Java ou SQL, à utiliser pour exécuter l'analyse.
Si vous sélectionnez le moteur Java :
- cochez la case Allow drill down pour explorer, dans la vue Analysis Results, les résultats de tous les indicateurs. Cela ne s'applique pas à l'indicateur Row Count.
- dans le champ Max number of rows kept per indicator, configurez le nombre de lignes de données à explorer.
-
Si vous avez défini des variables de contexte dans la vue Contexts de l'éditeur d'analyse, procédez comme suit :
-
utilisez les vues Data Filter et Analysis Parameter pour configurer/sélectionner des variables de contexte afin de filtrer les données et décider du nombre de connexions concourantes par analyse, respectivement.
-
Dans la vue Context Group Settings, sélectionnez dans la liste l'environnement de contexte à utiliser pour exécuter l'analyse.
-
Sauvegardez l'analyse et appuyez sur F6 pour l'exécuter.
L'éditeur passe à la vue Analysis Results.
Lorsque vous utilisez le moteur SQL, l'analyse exécute de multiples indicateurs en parallèle et les résultats sont rafraîchis dans les graphiques pendant que l'analyse s'exécute.
Voici quelques graphiques représentant les indicateurs Frequency Statistics et Text Statistics pour la colonne fullname.
Ci-dessous se trouvent les diagrammes représentant la table de fréquence des modèles et la table de basse fréquence des modèles pour la colonne email.
Dans la table, les modèles utilisent a et A pour représenter les valeurs des e-mails. Chaque modèle peut avoir jusqu'à 30 caractères. Si le nombre total de caractères dépasse 30, le modèle est représenté comme suit : aaaaaAAAAAaaaaaAAAAAaaaaaAAAAA...<nombre total de caractères>.
Ci-dessous, vous pouvez voir les diagrammes représentant le résumé statistique pour la colonne total_sales.
Ci-dessous, vous pouvez voir les diagrammes représentant les statistiques de fréquence de la loi de Benford, pour la colonne total_sales.
Pour plus d'informations concernant les statistiques de fréquence de la loi de Benford, utilisées comme indicateur dans des listes ou tables afin de détecter la fraude en comptabilité ou dans des dépenses, consultez
Détection de la fraude.
Résultats
Si vous exécutez cette analyse à l'aide du moteur Java et que vous cochez la case
Allow drill down dans la vue
Analysis parameters, vous pouvez stocker localement les données analysées et y accéder via la vue . Vous pouvez utiliser le champ
Max number of rows kept per indicator afin de décider du nombre de lignes de données que vous souhaitez rendre accessibles.
Lorsque vous choisissez le moteur Java, le système cherche des expressions régulières Java.
Si vous exécutez cette analyse à l'aide du moteur SQL, vous pouvez voir la requête exécutée pour chaque indicateur attaché si vous cliquez-droit sur un indicateur et sélectionnez l'option View executed query dans le menu contextuel. Cependant, lorsque vous utilisez le moteur Java, les requêtes SQL ne sont pas accessibles.