Famille du composant |
Processing/Fields | |
Basic settings |
Editor |
Cliquez pour ouvrir l'interface de création de la structure de données JSON. Pour plus d'informations, consultez Configurer une arborescence JSON. |
|
Schema et Edit Schema |
Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository. Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :
|
|
|
Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend. |
|
|
Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend. |
|
Sync columns |
Cliquez sur ce bouton pour synchroniser le schéma du fichier de sortie et le schéma du fichier d'entrée. La fonction Sync s'affiche uniquement lorsque le lien Row est connecté au composant de sortie. |
|
Group by |
Définissez l'ensemble d'agrégation, les colonnes que vous souhaitez utiliser pour regrouper les données.
AvertissementAssurez-vous que les données à grouper sont un ordre séquentiel.
|
Remove root node |
Cochez cette case pour supprimer le nœud racine du champ JSON généré. | |
Utilisation dans des Jobs Spark Batch | Dans un Job Talend Spark Batch, il est utilisé comme étape intermédiaire, avec d'autres composants Spark Batch. Ils génèrent nativement du code Spark pouvant être exécuté directement dans un cluster Spark. Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch. Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données. | |
Spark Connection | Vous devez utiliser l'onglet Spark Configuration de la vue Run afin de définir la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, un (et un seul) composant relatif à un système de fichiers de la famille Storage est requis au sein du même Job, afin que Spark puisse utiliser ce composant pour se connecter au système de fichiers auquel les fichiers .jar dépendants du Job sont transférés :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. | |
Log4j | Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend. Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais). |