Propriétés du tCollectAndCheck dans des Jobs Spark Batch - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Famille du composant

Technical

 

Basic settings

Separator

Saisissez un caractère, une chaîne de caractères ou une expression régulière pour séparer les champs des données transférées.

 

Line separator

Saisissez le séparateur à utiliser pour identifier la fin des lignes.

 

Use context variable

Si vous avez déjà créé la variable de contexte représentant le fichier de référence à utiliser, cochez cette case et saisissez cette variable dans le champ Variable name qui s'affiche.

La syntaxe pour appeler une variable est context.VariableName.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

 

Reference data

Si vous ne souhaitez pas utiliser de variable de contexte représentant les données de référence à utiliser, saisissez ces données de référence directement dans le champ.

 

Keep the order from the reference

Si les RDD à vérifier sont triés, cochez cette case pour trier vos données de référence.

Advanced settings

When the reference is empty, expect no incoming value

Par défaut, cette case est décochée, ce qui signifie que, lorsqu'un champ est vide dans les données de référence, le test attend un champ également vide dans les ensembles de données entrants en cours de vérification, afin de valider les résultats du test.

Si vous souhaitez que le test n'attende pas de valeur lorsque la référence est vide, cochez cette case.

Utilisation dans des Jobs Spark Batch

Dans un Job Talend Spark Batch, ce composant est utilisé en tant que composant de fin et requiert un lien d'entrée. Les autres composants utilisés avec lui doivent également être des composants Spark Batch. Ils génèrent nativement du code Spark pouvant être directement exécuté dans un cluster Spark.

Ce composant est automatiquement ajouté à un scénario de test créé pour afficher les résultats du test dans la console de la vue Run.

Spark Connection

Vous devez utiliser l'onglet Spark Configuration de la vue Run afin de définir la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, un (et un seul) composant relatif à un système de fichiers de la famille Storage est requis au sein du même Job, afin que Spark puisse utiliser ce composant pour se connecter au système de fichiers auquel les fichiers .jar dépendants du Job sont transférés :

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).