Propriétés du tRuleSurvivorship - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Famille du composant

Data Quality

 

Fonction

Le composant tRuleSurvivorship reçoit des enregistrements dans lesquels les doublons, ou les doublons possibles, sont déjà estimés et regroupés. A partir de règles métier personnalisées, il crée un représentant unique de chaque groupe de doublons à l'aide des données consolidées.

Objectif

Le tRuleSurvivorship crée un représentant unique d'une entité selon des règles métier. Il permet de créer une copie maître des données pour MDM.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (Built-in) soit distant dans le Repository.

Ce composant fournit deux colonnes en lecture seule :

  • SURVIVOR : cette colonne est de type Boolean. Elle indique si un enregistrement est l'enregistrement consolidé (true) ou non (false). Il y a un enregistrement consolidé pour chaque groupe.

  • CONFLICT : cette colonne affiche les conflits lorsque plus d'un enregistrement répond à une règle métier donnée.

 

 

Built-in : Le schéma est créé et conservé pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisable dans divers projets et Job designs. Voir également le Guide utilisateur du Studio Talend.

 Group identifierSélectionnez la colonne dont le contenu indique les identifiants de groupe requis du schéma d'entrée.
 Group sizeSélectionnez la colonne dont le contenu indique la taille requise du groupe dans le schéma d'entrée.

 

Rule package name

Saisissez le nom de l'ensemble de règles que vous créez via ce composant.

  Generate rules and survivorship flow

Une fois que toutes les règles ont été configurées dans un ensemble via ce composant, cliquez sur l'icône pour générer cet ensemble de règles sous le nœud Survivorship Rules du dossier Rules Management sous Metadata dans le Repository de la perspective Integration de votre Studio Talend. Cette étape est nécessaire pour valider l'ensemble de règles.

Note

Cette étape est nécessaire pour valider les modifications et les prendre en compte lors de l'exécution. Si un ensemble de règles du même nom existe déjà dans le Repository, ces modifications, une fois validées, vont l'écraser dans le Repository, sinon celui du Repository aura priorité lors de l'exécution.

 

Rule table

Renseignez cette table pour créer un flux complet de consolidation. Chaque règle donnée est définie comme une étape d'exécution. Ainsi, dans l'ordre descendant dans la table, ces règles représentent une séquence et un flux prend forme. Les colonnes de cette table sont :

Order : Dans la liste, sélectionnez l'ordre d'exécution des règles que vous créez afin de définir un flux de consolidation. Les types d'ordre peuvent être :

  • Sequential : une règle Sequential est une étape d'exécution d'un flux de consolidation. Par exemple, la première règle en haut de la table Rule table sera la première étape et, en descendant, la règle Sequential suivante sera la deuxième étape.

    La première règle en haut doit être une règle Sequential.

  • Multi-condition : une règle Multi-condition est une règle supplémentaire pour une étape d'exécution donnée. Elle est toujours ajoutée à la dernière règle Sequential du dessus dans la table et, à cette étape, les deux règles doivent obligatoirement être respectées. Par exemple, après avoir défini la première règle Sequential, définissez une règle Multi-condition en-dessous ; les deux règles deviennent les règles de la première étape.

  • Multi-target : après exécution, chaque étape valide la valeur des champs d'un enregistrement d'une colonne Reference column donnée et sélectionne la valeur correspondante comme étant celle de meilleure qualité pour renseigner une colonne Target column donnée, une règle Multi-target vous permet d'ajouter une ou plusieurs colonne(s) Target column dans la même étape.

    Vous devez définir chaque colonne Reference column et Target column manuellement dans cette table.

Rule Name : Saisissez le nom de chaque règle que vous créez. Cette colonne est disponible uniquement pour les règles Sequential puisqu'elle définit les étapes du flux de consolidation.

Reference column : Sélectionnez la colonne sur laquelle vous souhaitez appliquer une règle donnée. Ce sont les colonnes définies dans le schéma de ce composant. Cette colonne n'est pas disponible pour les règles Multi-target car elles définissent uniquement les colonnes Target column.

Function : Sélectionnez le type d'opération de validation à effectuer sur une colonne Reference column données. Les types disponibles comprennent :

  • None : aucune opération de validation n'est effectuée.

  • Most common : valide la valeur de champ la plus fréquente dans chaque groupe de doublons.

  • Most recent ou Most ancient : le premier valide la valeur de date la plus récente et le second valide la valeur de date la plus ancienne, dans chaque groupe de doublons. La colonne de référence correspondante doit être de type Date.

  • Longest or Shortest : le premier valide la valeur de champ la plus longue et le second valide la valeur de champ la plus courte, dans chaque groupe de doublons.

  • Largest ou Smallest : le premier valide la plus grande valeur numérique plus grand numéro et le second la plus petite valeur numérique, dans chaque groupe de doublons.

  • Match regex : valide le champ lorsqu'il est conforme à l'expression régulière dans la colonne Value.

  • Expression : valide le champ lorsqu'il est conforme à l'expression saisie dans la colonne Value. La valeur de l'expression doit être écrite à l'aide du langage Drools.

  • Most complete : valide le champ lorsque l'enregistrement auquel il appartient possède le moins de champs vides.

Value : saisissez l'expression qui vous intéresse, correspondant à la fonction Match regex ou Expression sélectionnée dans la colonne Function.

Target column : lorsqu'une étape est exécutée, elle valide la valeur d'un champ d'un enregistrement d'une colonne Reference column donnée et sélectionne la valeur correspondante de meilleure qualité pour renseigner la colonne Target column donnée. Sélectionnez cette colonne Target column parmi les colonnes du schéma du composant.

Ignore blanks : Cochez les cases correspondant au nom des colonnes dont vous souhaitez ignorer les valeurs vides.

 Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du Job et du composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant requiert un composant d'entrée et un composant de sortie.

Comme il requiert des données groupées à traiter, ce composant fonctionne avec des composants comme le tMatchGroup comprenant donc des colonnes GID (identifiant du groupe) et GRP_SIZE (taille du groupe). Il requiert également que les données d'entrée soient triées par l'identifiant du groupe et que la première ligne du groupe contienne la taille du groupe.

Lorsque vous exportez un Job à l'aide d'un tRuleSurvivorship, vous devez cocher la case Export Dependencies afin d'exporter ensemble les règles de consolidation générées. Pour plus d'informations concernant l'export d'un Job, consultez le Guide utilisateur du Studio Talend.