tSurviveFields - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'un des produits Talend Platform.

Fonction

Le tSurviveFields reçoit un flux et le fusionne sur une ou plusieurs colonne(s). La clé d'agrégation et le résultat correspondant des opérations (comme max, min, sum, etc) sont fournis pour chaque ligne de sortie.

Objectif

Le tSurviveFields centralise des données à partir de sources variées et hétérogènes. Il permet de créer une copie de référence des données pour MDM.

Propriétés du tSurviveFields

Famille du composant

Data Quality

 

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository.

 

 

Built-in : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisable dans divers projets et Job designs. Voir également le Guide utilisateur du Studio Talend.

 

Key

Définissez les ensembles de fusion, les valeurs qui seront utilisées pour les calculs.

Output column : Sélectionnez dans la liste la colonne reflétant la structure du schéma que vous avez défini. Vous pouvez ajouter autant de colonnes de sortie que vous le souhaitez, afin d'effectuer des agrégations plus précises.

Input column : Fait correspondre chaque colonne d'entrée à vos colonnes de sortie, si la colonne de sortie de l'ensemble d'agrégation doit être différente.

Avertissement

Les colonnes du tableau Key ne doivent PAS apparaître dans le tableau Operations. Si vous souhaitez que toutes les colonnes de sortie du schéma soient remplies, elles doivent apparaître soit dans le tableau Key, soit dans le tableau Operations.

 

Operations

Output column : Sélectionnez dans la liste la colonne de sortie qui résultera de l'opération de fusion sélectionnée.

Function : Sélectionnez dans la liste le type des opérations de fusion à effectuer. La liste comprend count, min, max, avg, sum, first, last, list, list(object), count(distinct), standard deviation, max length et best rank.

Input column : Sélectionnez dans la liste la colonne d'entrée à partir de laquelle les valeurs sont sélectionnées pour l'opération de fusion.

Rank column : Disponible uniquement avec la fonction best rank. Sélectionnez dans la liste la colonne que vous souhaitez utiliser comme valeur de rang pour l'opération de fusion. La colonne d'entrée sera remplacée par la valeur ayant le rang le plus haut.

Ignore null values : Cochez les cases correspondant aux colonnes pour lesquelles vous souhaitez ignorer les valeurs NULL.

Advanced settings

Delimiter (only for list operation)

Saisissez, entre guillemets, le délimiteur que vous souhaitez utiliser pour les opérations de liste.

 

Use financial precision, this is the max precision for "sum" and "avg" operations, checked option heaps more memory and slower than unchecked.

Cochez cette case pour utiliser une précision financière, la précision maximale pour les opérations "sum" et "avg". Si la case est cochée, le processus utilisera plus de mémoire et sera plus lent.

 

Check type overflow (slower)

Vérifie le type des données afin d'assurer que le Job ne tombe pas en erreur.

Si vous cochez cette case, le système sera plus lent.

 

Check ULP (Unit in the Last Place), ensure that a value will be incremented or decremented correctly, only for float and double types. (slower)

Cochez cette case afin de lancer la vérification de l'ULP (Unité en dernière location), et assurer que la valeur est incrémentée ou décrémentée correctement. Fonctionne seulement pour les types float ou double (plus lent).

Si vous cochez cette case, le système sera ralenti.

 

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de process du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est une étape intermédiaire. Cela requiert un flux entrant et une sortie.

Scénario : Fusionner le contenu de plusieurs lignes en utilisant différentes colonnes comme valeur de rang

Ce scénario décrit un Job utilisant un composant tSurviveFields pour fusionner selon différentes valeurs de rang le contenu de lignes de données dans différentes colonnes et écrire le résultat dans un fichier de sortie.

Dans ce scénario, vous avez déjà stocké les schémas d'entrée de fichier d'entrée dans le Repository. Pour plus d'informations à propos du stockage de métadonnées de schéma dans le Repository, consultez le Guide utilisateur du Studio Talend.

Le fichier d'entrée contient quatre colonnes : grp, gender, firstname et count. Les données contiennent des erreurs, comme des doublons, des prénoms dont l'orthographe est fausse ou diffère, ainsi que des informations différentes pour le même client.

Construire le Job

  1. Dans la vue Repository, cliquez sur Metadata > File Excel, et glissez les schémas d'entrée que vous avez stockés, dans l'espace de modélisation graphique.

    Le composant tFileInputExcel contenant votre schéma s'affiche dans l'espace de travail.

  2. Glissez un composant tSurviveFields et un composant tFileOutputExcel de la Palette dans l'espace de modélisation graphique.

  3. Reliez les composants à l'aide de liens Row > Main.

Configurer les composants

  1. Double-cliquez sur le tFileInputExcel afin d'afficher sa vue Component.

    Tous les propriétés sont automatiquement renseignées. Si vous n'avez pas défini vos schémas d'entrée localement, dans le Repository, remplissez les informations manuellement, après avoir sélectionné Built-In dans les listes Property Type et Schema.

  2. Double-cliquez sur le tSurviveFields afin d'afficher sa vue Component et définir ses propriétés.

  3. Cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent. Vous pouvez cliquer sur le bouton [...] à côté du champ Edit schema, afin de voir le schéma.

  4. Dans le tableau Key, cliquez sur le bouton [+] afin d'ajouter une nouvelle ligne puis cliquez sur la ligne et sélectionnez dans la liste la colonne que vous voulez utiliser pour fusionner les données.

    Vous pouvez sélectionner plusieurs colonnes comme ensemble d'agrégation, si vous souhaitez fusionner les données selon plusieurs critères. Dans ce scénario, l'objectif est d'utiliser la colonne grp pour fusionner les données.

  5. Dans le tableau Operations, cliquez sur le bouton [+] pour ajouter de nouvelles lignes. Vous pouvez définir les colonnes de sortie qui contiendront les résultats de l'opération de fusion. Dans ce scénario, l'objectif est de fusionner les données de trois colonnes, firstname, gender et count.

  6. Cliquez sur la première ligne de la colonne Output column, et sélectionnez la première colonne de sortie qui contiendra les résultats de la fusion.

    • Cliquez sur la première ligne de la colonne Function, et sélectionnez l'opération de fusion que vous souhaitez effectuer.

    • Cliquez sur la première ligne de la colonne Input column, et sélectionnez la colonne à partir de laquelle vous souhaitez prendre les valeurs.

    • Cliquez sur la première ligne de la colonne Rank column, et sélectionnez la colonne qui sera utilisée comme base de l'opération de fusion.

    • Répétez le processus afin de définir les paramètres de l'opération de fusion pour toutes les colonnes que vous souhaitez écrire dans le fichier de sortie.

    L'objectif est de lire les données des colonnes d'entrée firstname et gender, et de n'écrire que les valeurs de la valeur maximale de rang (nombre de lignes) dans des colonnes de sortie firstname et gender. L'objectif est également de lire les données de la colonne d'entrée count, et d'écrire dans une colonne de sortie count les valeurs ayant le numéro de groupe (grp) le plus élevé.

  7. Double-cliquez sur le composant tFileOutputExcel pour ouvrir sa vue Basic settings.

  8. Spécifiez le chemin d'accès au fichier cible, cochez la case Include header et laissez les autres paramètres tels qu'ils sont.

Exécuter le Job

  • Sauvegardez votre Job et appuyez sur F6 afin de l'exécuter.

Une barre de progression s'affiche et montre les pourcentages effectués de l'opération de fusion. Lorsque la progression atteint les 100%, les données spécifiées sont regroupées et écrites dans les colonnes de sorties définies.

Le tableau ci-dessous montre un extrait des données de sortie après l'opération de fusion.