Propriétés du tDataprepRun pour Apache Spark Steaming - 6.5

Data Preparation

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Preparation
Gouvernance de données > Systèmes tiers > Composants Data Preparation
Qualité et préparation de données > Systèmes tiers > Composants Data Preparation
EnrichPlatform
Studio Talend
Talend Data Preparation

Ces propriétés sont utilisées pour configurer le tDataprepRun s'exécutant dans le framework de Jobs Spark Streaming.

Le composant tDataprepRun Spark Streaming appartient à la famille Talend Data Preparation.

Le composant de ce framework est disponible dans Talend Real Time Big Data Platform et dans Talend Data Fabric.

Basic settings

URL

Saisissez, entre guillemets doubles, l'URL de l'application Web Talend Data Preparation.

Email

Saisissez, entre guillemets doubles, l'adresse e-mail que vous utilisez pour vous connecter à l'application Web Talend Data Preparation.

Remarque : Si vous utilisez Talend Data Preparation Cloud, saisissez votre compte Talend Cloud au lieu de votre e-mail Talend Data Preparation.

Password

Cliquez sur le bouton [...] et saisissez, entre guillemets doubles, votre mot de passe pour l'application Web Talend Data Preparation.

Lorsque vous utilisez les propriétés de sélection de préparation par défaut :

Preparation

Pour renseigner le champ Preparation, cliquez sur Choose an existing preparation pour choisir parmi la liste des préparations déjà existantes dans Talend Data Preparation.

Cliquez sur ce bouton afin de modifier dans Talend Data Preparation la préparation correspondant à l'identifiant défini dans Preparation.

Version

Si vous avez créé plusieurs versions de votre préparation, vous pouvez choisir laquelle utiliser dans le Job. Pour remplir le champ Version, cliquez sur Choose a Version et choisissez parmi les versions existantes, y compris la version actuelle de la préparation.

Schema and Edit Schema

Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) dans le Repository. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job.

Fetch Schema

Cliquez sur ce bouton pour récupérer le schéma à partir de la préparation définie dans le champ Preparation.

Lorsque vous utilisez la sélection dynamique de préparation :

Dynamic preparation selection

Cochez cette case pour définir le chemin d'une préparation ainsi que sa version en utilisant des variables de contexte. La préparation sera sélectionnée dynamiquement au moment de l’exécution du Job.

Preparation path

Utilisez une variable de contexte pour définir le chemin de la préparation. Les chemins avec ou sans le / en début de ligne sont supportés.

Preparation version

Utilisez une variable de contexte pour définir la version à utiliser pour la préparation. Les version de préparation sont référencées par leur numéro. En conséquence, pour exécuter la version #2 d'une préparation par exemple, la valeur attendue est "2". Pour exécuter la version actuelle d'une préparation, la valeur attendue est "Current state".

Schema and Edit Schema

Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) dans le Repository. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job.

Fetch Schema

Cliquez sur ce bouton pour récupérer dynamiquement le schéma de la préparation définie par la variable de contexte dans le champ Preparation path. Si la récupération du schéma est réussie, tout schéma précédemment configuré sera écrasé. Si la récupération échoue, alors le schéma actuel est conservé.

Advanced settings

Encoding

Sélectionnez l'encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données de base de données.

Global Variables

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend .

Utilisation

Règle d'utilisation

Ce composant est un composant intermédiaire. Il requiert un flux d'entrée ainsi qu'un flux de sortie.

Limitations

  • Si le jeu de données a été mis à jour après que le composant tDataprepRun a été configuré, le schéma doit être à nouveau récupéré.

  • Si une variable de contexte a été utilisée dans l'URL du jeu de données, vous ne pourrez pas utiliser le bouton pour modifier la préparation directement dans Talend Data Preparation.

  • Les fonctions Make row as header et Delete row, ainsi que les modifications isolées sur des cellules, sont ignorées par le composant tDataprepRun. Ces fonctions ne s'appliquent que sur une seule ligne ou cellule, et ne sont donc pas réalisables dans un contexte de Big Data. Au moment de choisir parmi la liste des préparations existantes un avertissement s'affiche à côté des préparations qui contiennent des actions incompatibles.