Propriétés du tSurviveFields Standard - 7.0

Deduplication

EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage

Ces propriétés sont utilisées pour configurer le tSurviveFields s'exécutant dans le framework de Jobs Standard.

Le composant tSurviveFields Standard appartient aux familles Data Quality, Talend MDM et Processing.

Ce composant est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (Built-in), soit distant dans le Repository.

 

Built-in : le schéma est créé et conservé pour ce composant uniquement. Scénario associé : consultez le Guide d'utilisation du Studio Talend .

 

Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et Jobs. Scénario associé : consultez le Guide d'utilisation du Studio Talend .

Key

Définissez les ensembles de fusion, les valeurs qui seront utilisées pour les calculs.

Output column : sélectionnez dans la liste le nom de la colonne reflétant la structure du schéma que vous avez défini. Vous pouvez ajouter autant de colonnes de sortie que vous le souhaitez, afin d'effectuer des agrégations plus précises.

Input column : faites correspondre chaque colonne d'entrée à vos colonnes de sortie, si la colonne de sortie de l'ensemble d'agrégation doit être différente.

Avertissement :

Les colonnes du tableau Key ne doivent PAS apparaître dans le tableau Operations. Si vous souhaitez que toutes les colonnes de sortie du schéma soient remplies, elles doivent apparaître soit dans le tableau Key, soit dans le tableau Operations.

Opérations

Output column : sélectionnez dans la liste la colonne de sortie qui résultera de l'opération de fusion sélectionnée.

Function : sélectionnez dans la liste le type des opérations de fusion à effectuer. La liste comprend count, min, max, avg, sum, first, last, list, list(object), count(distinct), standard deviation, max length et best rank.

Input column : sélectionnez dans la liste la colonne d'entrée à partir de laquelle les valeurs sont sélectionnées pour l'opération de fusion.

Rank column : disponible uniquement avec la fonction best rank. Sélectionnez dans la liste la colonne que vous souhaitez utiliser comme valeur de rang pour l'opération de fusion. La colonne d'entrée sera remplacée par la valeur ayant le rang le plus haut.

Ignore null values : cochez les cases correspondant aux noms des colonnes pour lesquelles vous souhaitez ignorer les valeurs NULL.

Advanced settings

Séparateur (seulement pour les opérations de liste)

Saisissez, entre guillemets, le séparateur que vous souhaitez utiliser pour les opérations de liste.

Use financial precision, this is the max precision for "sum" and "avg" operations, checked option heaps more memory and slower than unchecked.

Cette case, cochée par défaut, permet d'utiliser une précision financière. Si la case est cochée, le processus utilisera plus de mémoire et sera plus lent.

Check type overflow (slower)

Vérifie le type des données afin d'assurer que le Job ne tombe pas en erreur.

Si vous cochez cette case, le système sera plus lent.

Check ULP (Unit in the Last Place), ensure that a value will be incremented or decremented correctly, only float and double types. (slower)

Cochez cette case afin de lancer la vérification de l'ULP (Unité en dernière location).

Si vous cochez cette case, le système sera plus lent.

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du Job et de chaque composant.

Global Variables

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide d'utilisation du Studio Talend .

Utilisation

Règle d'utilisation

Cela requiert un flux entrant et une sortie.