Utiliser le moteur Java ou SQL - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-03-06
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Pourquoi et quand exécuter cette tâche

La perspective Profiling dans le Studio vous permet d'analyser le contenu d'une ou plusieurs colonne(s) à l'aide du moteur d'exécution Java ou SQL.

Le choix du moteur peut parfois modifier légèrement les résultats d'analyse, par exemple lorsque vous sélectionnez les indicateurs de résumé statistique pour profiler une base de données DB2, car les indicateurs sont calculés différemment selon le type de base de données et également parce que Talend utilise des fonctions spéciales lors de son fonctionnement avec Java.

Moteur SQL :

Lorsque vous utilisez le moteur SQL pour exécuter une analyse de colonne :

  • une requête SQL est générée pour chaque indicateur utilisé dans l'analyse de colonne, l'analyse exécute de multiples indicateurs en parallèle et les résultats sont actualisés dans les graphiques pendant que l'analyse s'exécute,

  • le monitoring et le traitement des données s'effectuent sur le SGBD,

  • seuls les résultats statistiques sont retournés localement.

Lorsque vous utilisez le moteur SQL pour exécuter une analyse de colonne(s), vous optimisez les performances de votre système. Vous pouvez également accéder aux données valides/non valides dans l'explorateur de données.

Moteur Java :

Si vous utilisez le moteur Java pour exécuter une analyse de colonne(s) :

  • seule une requête est générée pour tous les indicateurs utilisés dans l'analyse de colonne(s),

  • toutes les données monitorées sont retournées localement pour être analysées,

  • vous pouvez configurer les paramètres afin de décider de l'accès aux données analysées et du nombre de lignes à afficher par indicateur. Cela vous permettra d'éviter les problèmes de limite de mémoire, puisqu'il est impossible de stocker toutes les données analysées.

Lorsque vous utilisez le moteur Java pour exécuter une analyse de colonne(s), vous n'avez pas besoin de différents modèles de requêtes spécifiques à chaque base de données. Cependant, les performances du système sont significativement réduites, si l'on compare à l'utilisation du moteur SQL. Exécuter l'analyse avec le moteur Java utilise de l'espace disque car toutes les données sont récupérées et stockées localement. Si vous souhaitez libérer de l'espace, vous pouvez supprimer les données stockées dans le répertoire principal du Studio Talend : Talend-Studio>workspace>project_name>Work_MapDB.

Pour définir les paramètres d'accès aux données analysées lorsque vous utilisez le moteur Java, procédez comme suit :

Procédure

  1. Dans la vue Analysis Parameter (Paramètre d'analyse) de l'éditeur d'analyse de colonne·s, sélectionnez Java dans la liste Execution engine (Moteur d'exécution).
  2. Cochez la case Allow drill down afin de stocker localement les données qui seront analysées par l'analyse courante.
    Cette case est cochée par défaut.
  3. Dans le champ Max number of rows kept per indicator, saisissez le nombre de lignes de données que vous souhaitez rendre accessibles.
    Ce champ est configuré à 50 par défaut.

Résultats

Vous pouvez exécuter votre analyse et accéder aux données analysées selon les paramètres définis.