Propriétés du tDataprepRun pour Apache Spark Steaming - 7.3

Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Preparation
Gouvernance de données > Systèmes tiers > Composants Data Preparation
Qualité et préparation de données > Systèmes tiers > Composants Data Preparation
EnrichPlatform
Studio Talend
Talend Data Preparation

Ces propriétés sont utilisées pour configurer le tDataprepRun s'exécutant dans le framework de Jobs Spark Streaming.

Le composant tDataprepRun Spark Streaming appartient à la famille Préparation de données Talend.

Ce composant est disponible dans Talend Real Time Big Data Platform et dans Talend Data Fabric.

Basic settings

URL

Saisissez, entre guillemets doubles, l'URL de l'application Web Talend Data Preparation.

Si vous travaillez avec Talend Cloud Data Preparation, utilisez l'une des adresses suivantes pour accéder à l'application :

  • https://tdp.us.cloud.talend.com pour le centre de données des États-Unis.
  • https://tds.eu.cloud.talend.com/data-stewardship pour le centre de données de l'Europe.
  • https://tds.ap.cloud.talend.com/data-stewardship pour le centre de données de l'Asie-Pacifique.

Email

Saisissez, entre guillemets doubles, l'adresse e-mail que vous utilisez pour vous connecter à l'application Web Talend Data Preparation.

Password

Cliquez sur le bouton [...] et saisissez, entre guillemets doubles, votre mot de passe pour l'application Web Talend Data Preparation.

Si vous travaillez avec Talend Cloud Data Preparation et si :

  • Si le SSO est activé, saisissez un jeton d'accès dans le champ.
  • Si le SSO n'est pas activé, saisissez un jeton d'accès ou votre mot de passe dans le champ.

Lorsque vous utilisez les propriétés de sélection de préparation par défaut :

Preparation

Pour renseigner le champ Preparation, cliquez sur Choose an existing preparation et sélectionnez l'une des préparations précédemment créées, dans la boîte de dialogue. Cette boîte de dialogue affiche le nom, le chemin, l'auteur et la date de dernière modification de chacune des préparations.

Cliquez sur ce bouton afin de modifier dans Talend Data Preparation la préparation correspondant à l'identifiant défini dans Preparation.

Version

Si vous avez créé plusieurs versions de votre préparation, vous pouvez choisir laquelle utiliser dans le Job. Pour remplir le champ Version, cliquez sur Choose a Version et choisissez parmi les versions existantes, y compris la version actuelle de la préparation.

Schema et Edit Schema

Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Modifiez le schéma en cliquant sur Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir uniquement le schéma.

  • Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre Repository Content.

Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job.

Fetch Schema

Cliquez sur ce bouton pour récupérer le schéma à partir de la préparation définie dans le champ Preparation.

Lorsque vous utilisez la sélection dynamique de préparation :

Dynamic preparation selection

Cochez cette case pour définir le chemin d'une préparation ainsi que sa version en utilisant des variables de contexte. La préparation sera sélectionnée dynamiquement au moment de l’exécution du Job.

Preparation path

Utilisez une variable de contexte pour définir le chemin de la préparation. Les chemins avec ou sans le / en début de ligne sont supportés.

Preparation version

Utilisez une variable de contexte pour définir la version à utiliser pour la préparation. Les version de préparation sont référencées par leur numéro. En conséquence, pour exécuter la version #2 d'une préparation par exemple, la valeur attendue est "2". Pour exécuter la version actuelle d'une préparation, la valeur attendue est "Current state".

Schema et Edit Schema

Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Modifiez le schéma en cliquant sur Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir uniquement le schéma.

  • Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre Repository Content.

Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job.

Fetch Schema

Cliquez sur ce bouton pour récupérer dynamiquement le schéma de la préparation définie par la variable de contexte dans le champ Preparation path. Si la récupération du schéma est réussie, tout schéma précédemment configuré sera écrasé. Si la récupération échoue, alors le schéma actuel est conservé.

Advanced settings

Encoding

Sélectionnez l'encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement.

Variables globales

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend .

Utilisation

Règle d'utilisation

Ce composant est un composant intermédiaire. Il requiert un flux d'entrée et un flux de sortie.

Limitations

  • Si le jeu de données a été mis à jour après que le composant tDataprepRun a été configuré, le schéma doit être à nouveau récupéré.

  • Si une variable de contexte a été utilisée dans l'URL du jeu de données, vous ne pourrez pas utiliser le bouton pour modifier la préparation directement dans Talend Data Preparation.

  • Les fonctions Make row as header et Delete row, ainsi que les modifications isolées sur des cellules, sont ignorées par le composant tDataprepRun. Ces fonctions ne s'appliquent que sur une seule ligne ou cellule, et ne sont donc pas réalisables dans un contexte de Big Data. Au moment de choisir parmi la liste des préparations existantes, un avertissement s'affiche à côté des préparations qui contiennent des actions incompatibles.

  • Avec la version 7.0 de Talend Data Fabric, si vous utilisez Spark 1.6, le composant tDataprepRun ne fonctionnera qu'avec la version 5.12 ou 5.13 de Cloudera. Si vous utilisez Spark 2.0, il n'y a pas de restriction sur la version de Cloudera.

Mode Yarn cluster

Lorsque le mode Yarn cluster mode est sélectionné, le pilote du Job est exécuté sur l'une des machines du cluster Hadoop et non pas sur une machine locale. Puisqu'il n'est pas possible de connaître à l'avance le nœud du cluster sur lequel le Job sera exécuté, vous devez vous assurer que tous les nœuds du cluster sont accessibles depuis le serveur de Talend Data Preparation.