Finaliser et exécuter l'analyse d'un ensemble de colonnes - 7.0

Guide utilisateur de Talend Big Data Platform Studio

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
Création et développement
EnrichPlatform
Studio Talend

Pourquoi et quand exécuter cette tâche

Avant d'exécuter l'analyse de cet ensemble de colonne, il vous reste à définir les indicateurs, le filtre sur les données et les paramètres d'analyse.

Prérequis : Une analyse d'un ensemble de colonnes doit déjà avoir été configurée dans la perspective Profiling du Studio. Pour plus d'informations, consultez Définir l'ensemble de colonnes à analyser et Ajouter des modèles aux colonnes analysées.

Procédure

  1. Dans la zone Analysis Parameters :
    • Dans le champ Number of connections per analysis, configurez le nombre de connexions concourantes autorisées par analyse pour la base de données sélectionnée.

      Vous pouvez configurer ce nombre selon les ressources disponibles de la base de données, c'est-à-dire le nombre de connexions concourantes que chaque base de données peut supporter.

    • Dans la liste Execution engine, sélectionnez le moteur, Java ou SQL, à utiliser pour exécuter l'analyse.

      • Si vous sélectionnez le moteur Java, la case Store data est cochée par défaut et ne peut être décochée. Vous pouvez les explorer via la vue Analysis Results > Data. Pour plus d'informations, consultez Filtrer des données par rapport à des modèles.

        Exécuter l'analyse avec le moteur Java utilise de l'espace disque car toutes les données sont récupérées et stockées localement. Si vous souhaitez libérer de l'espace, vous pouvez supprimer les données stockées dans le répertoire suivant du Studio : Talend-Studio>workspace>project_name>Work_MapDB.

      • Si vous sélectionnez le moteur SQL, vous pouvez utiliser la case Store data pour décider de stocker localement les données analysées et y accéer via la vue Analysis Results > Data.

        Remarque : Si les données en cours d'analyse sont très volumineuses, il est recommandé de ne pas cocher la case Store data pour ne pas stocker les résultats à la fin des calculs de l'analyse.
  2. Sauvegardez l'analyse et appuyez sur F6 pour l'exécuter.
    L'éditeur d'analyse passe à la vue Analysis Results dans laquelle vous pouvez lire les résultats d'analyse dans des tables et des diagrammes. Les résultats graphiques fournissent les statistiques simples sur les enregistrements complets de l'ensemble de colonnes analysées et non sur les valeurs au sein de chaque colonne séparément.

    Lorsque vous utilisez des modèles afin de rapprocher le contenu de l'ensemble de colonnes, un autre diagramme est affiché pour illustrer les résultats qui correspondent et qui ne correspondent pas par rapport à la totalité des modèles utilisés.

  3. Dans la table Simple Statistics, cliquez-droit sur un résultat d'indicateur et sélectionnez View Rows ou View Values.
    • Si vous exécutez l'analyse avec le moteur Java, une liste des données analysées est ouverte dans la perspective Profiling .

    • Si vous exécutez l'analyse avec le moteur SQL, une liste des données analysées est ouverte dans la perspective Data Explorer .

  4. Dans la table All Match, cliquez-droit sur la ligne de résultat et sélectionnez Generate an ETL job to handle rows.
    Un Job prêt à l'emploi est généré et ouvert dans la perspective Integration . Ce Job regroupe les lignes valides/invalides et les écrit dans deux fichiers séparés. Pour plus d'informations, consultez Récupérer les lignes correspondantes/non correspondantes.
    Remarque : La table All Match est disponible uniquement lorsque vous exécutez l'analyse avec le moteur Java.
  5. Dans la vue Data, cliquez sur Filter Data pour filtrer les données valides/invalides selon les modèles utilisés.
    Vous pouvez filtrer les données uniquement lorsque vous exécutez l'analyse avec le moteur Java. Pour plus d'informations, consultez Filtrer des données par rapport à des modèles.