Utiliser le moteur Java ou SQL - 6.4

Talend Real-time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.4
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

La perspective Profiling dans le studio vous permet d'analyser le contenu d'une ou plusieurs colonne(s) à l'aide du moteur d'exécution Java ou SQL.

Le choix du moteur peut parfois modifier légèrement les résultats d'analyse, par exemple lorsque vous sélectionnez les indicateurs de résumé statistique pour profiler une base de données DB2, car les indicateurs sont calculés différemment selon le type de base de données et également parce que Talend utilise des fonctions spéciales lors de son fonctionnement avec Java.

Moteur SQL :

Lorsque vous utilisez le moteur SQL pour exécuter une analyse de colonne :

  • une requête SQL est générée pour chaque indicateur utilisé dans l'analyse de colonne, l'analyse exécute de multiples indicateurs en parallèle et les résultats sont rafraîchis dans les graphiques pendant que l'analyse s'exécute.

  • le monitoring et le traitement des données sont effectués sur le SGBD,

  • seuls les résultats statistiques sont retournés localement.

Lorsque vous utilisez le moteur SQL pour exécuter une analyse de colonne(s), vous optimisez les performances de votre système. Vous pouvez également accéder aux données valides/invalides dans la perspective Data Explorer. Pour plus d'informations, consultez Voir et exporter des données analysées.

Moteur Java :

Si vous utilisez le moteur Java pour exécuter une analyse de colonne(s) :

  • seule une requête est générée pour tous les indicateurs utilisés dans l'analyse de colonne(s),

  • toutes les données monitorées sont retournées localement pour être analysées.

  • vous pouvez définir les paramètres afin de décider de l'accès aux données analysées et du nombre de lignes à afficher par indicateur. Cela vous permettra d'éviter les problèmes de limite de mémoire, puisqu'il est impossible de stocker toutes les données analysées.

Lorsque vous utilisez le moteur Java pour exécuter une analyse de colonne(s), vous n'avez pas besoin de différents modèles de requêtes spécifiques à chaque base de données. Cependant, les performances du système sont significativement réduites, si l'on compare à l'utilisation du moteur SQL. Exécuter l'analyse avec le moteur Java utilise de l'espace disque car les données sont récupérées et stockées localement. Si vous souhaitez libérer de l'espace, vous pouvez supprimer les données stockées dans le répertoire suivant du studio : Talend-Studio>workspace>project_name>Work_MapDB.

Pour définir les paramètres d'accès aux données analysées lorsque vous utilisez le moteur Java, procédez comme suit :

  1. Dans la vue Analysis Parameter de l'éditeur d'analyse de colonne(s), sélectionnez Java dans la liste Execution engine.

  2. Cochez la case Allow drill down afin de stocker localement les données qui seront analysées par l'analyse courante.

    Cette case est cochée par défaut.

  3. Dans le champ Max number of rows kept per indicator, saisissez le nombre de lignes de données que vous souhaitez rendre accessible.

    La valeur par défaut de ce champ est 50.

Vous pouvez exécuter votre analyse et accéder aux données analysées selon les paramètres définis. Pour plus d'informations, consultez Voir et exporter des données analysées.