Créer une analyse simple sur une colonne d'une base de données - 7.0

Guide utilisateur de Talend Big Data Platform Studio

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
Création et développement
EnrichPlatform
Studio Talend

Pourquoi et quand exécuter cette tâche

Vous pouvez construire votre analyse à partir de rien, analyser le contenu d'une ou plusieurs colonnes et d'exécuter les analyses créées à l'aide du moteur Java ou SQL. Ce type d'analyse fournit des statistiques concernant les valeurs dans chaque colonne.

Lorsque vous utilisez le moteur Java pour exécuter une analyse de colonnes, vous pouvez voir les données analysées selon les paramètres que vous avez configurés. Pour plus d'informations, consultez Utiliser le moteur Java ou SQL.

Remarque : Lorsque vous utilisez le moteur Java pour exécuter une analyse de colonne(s) sur des ensembles de données volumineux ou contenant de nombreux problèmes, il est recommandé de configurer une limite de taille de la mémoire allouée pour exécuter l'analyse, puisqu'il est possible d'avoir une erreur Java heap space. Pour plus d'informations, consultez Définir le seuil maximal de la mémoire.

Vous pouvez également d'analyser un ensemble de colonnes. Ce type d'analyse fournit des statistiques concernant les valeurs de l'ensemble des données (enregistrements complets). Pour plus d'informations, consultez Analyser des tables dans des bases de données.

Vous pouvez aussi générer un Job supprimant les valeurs en doublon d'une colonne spécifique analysée. Pour plus d'informations concernant la suppression des valeurs en doublon, consultez Générer un Job identifiant les valeurs en doublon d'une colonne analysée.

La séquence de création d'une analyse de colonne simple comprend les étapes suivantes :

Procédure

  1. Définition des colonnes à analyser.

    Pour plus d'informations, consultez Définir les colonnes à analyser.

  2. Configuration des indicateurs système prédéfinis ou des indicateurs personnalisés pour la (les) colonne(s).

    Pour plus d'informations, consultez Définition des indicateurs sur les colonnes. Pour plus d'informations, consultez Indicateurs.

  3. Ajout des modèles par rapport auxquels définir le contenu, la structure et la qualité des données.

    Pour plus d'informations concernant les types et la gestions des modèles, consultez Modèles.