Créer une analyse simple sur une colonne d'une base de données - 6.2

Talend Real-time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.2
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Vous pouvez construire votre analyse à partir de rien, analyser le contenu d'une ou plusieurs colonnes et d'exécuter les analyses créées à l'aide du moteur Java ou SQL. Ce type d'analyse fournit des statistiques concernant les valeurs dans chaque colonne.

Lorsque vous utilisez le moteur Java pour exécuter une analyse de colonnes, vous pouvez voir les données analysées selon les paramètres que vous avez configurés. Pour plus d'informations, consultez Utiliser le moteur Java ou SQL.

Note

Lorsque vous utilisez le moteur Java pour exécuter une analyse de colonne(s) sur des ensembles de données volumineux ou contenant de nombreux problèmes, il est recommandé de configurer une limite de taille de la mémoire allouée pour exécuter l'analyse, puisqu'il est possible d'avoir une erreur Java heap space. Pour plus d'informations, consultez Définir le seuil maximal de la mémoire.

Vous pouvez également d'analyser un ensemble de colonnes. Ce type d'analyse fournit des statistiques concernant les valeurs de l'ensemble des données (enregistrements complets). Pour plus d'informations, consultez Analyser des tables dans des bases de données.

Vous pouvez aussi générer un Job supprimant les valeurs en doublon d'une colonne spécifique analysée. Pour plus d'informations concernant la suppression des valeurs en doublon, consultez Générer un Job identifiant les valeurs en doublon d'une colonne analysée.

La séquence de création d'une analyse de colonne simple comprend les étapes suivantes :

  1. définition de la (des) colonne(s) à analyser.

    Pour plus d'informations, consultez Définir les colonnes à analyser.

  2. configuration des indicateurs système prédéfinis ou des indicateurs personnalisés pour la (les) colonne(s).

    Pour plus d'informations, consultez Définition des indicateurs sur les colonnes. Pour plus d'informations concernant les types d'indicateurs et la gestion des indicateurs, consultez Indicateurs.

  3. ajout des modèles par rapport auxquels définir le contenu, la structure et la qualité des données.

    Pour plus d'informations, consultez Utiliser des expressions régulières et des modèles SQL dans une analyse de colonne(s). Pour plus d'informations concernant les types de modèles et leur gestion, consultez Modèles et indicateurs.