Propriétés du tDuplicateRow Standard - 7.0

Data privacy

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de protection des données sensibles
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tDuplicateRow s'exécutant dans le framework de Jobs Standard.

Le composant tDuplicateRow Standard appartient à la famille Data Quality.

Ce composant est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent dans le Job.

Le schéma de sortie de ce composant contient une colonne en lecture seule, ORIGINAL_MARK. Cette colonne identifie l'enregistrement par true ou false si l'enregistrement est original ou en doublon, respectivement. Il y a un enregistrement original par groupe.

 

Built-In : le schéma est créé et conservé ponctuellement pour ce composant seulement. Consultez également : le Guide utilisateur du Studio Talend .

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets. Consultez également : le Guide utilisateur du Studio Talend .

Percentage of duplicated records

Saisissez le pourcentage de lignes en doublon que vous souhaitez avoir dans le flux de sortie.

Distribution of duplicates

Name : sélectionnez la distribution des probabilités à utiliser pour générer les doublons : distribution de Bernoulli, distribution de Poisson ou distribution géométrique.

Average group size : configurez le nombre moyen d'enregistrements en doublon que vous souhaitez générer dans les groupes de doublons.

Modifications

Définissez dans la table les champs à modifier dans une ligne et comment les modifier :

-Input Column : sélectionnez la colonne du flux d'entrée à partir de laquelle vous souhaitez générer les doublons en modifiant ses valeurs.

-Modification Rate : saisissez une probabilité pour les modifications que vous souhaitez avoir dans l'enregistrement en doublon généré depuis une colonne d'entrée. La probabilité est une valeur comprise entre 0 et 1. Si vous configurez la probabilité à 0, aucune modification n'est effectuée. Si vous configurez la probabilité à 0.5, les modifications se font environ toutes les deux lignes. Si vous configurez la probabilité à 1, les modifications se font à chaque ligne.

Ces modifications sont basées sur la fonction sélectionnée dans la colonne Function et sur le nombre de modifications définies dans la colonne Max Modification Count.

-Function : Sélectionnez la fonction permettant de décider de la modification à effectuer sur une valeur, afin de la dupliquer. Par exemple, vous pouvez décider d'avoir des valeurs en doublon exacts ou approximatifs en remplaçant ou ajoutant des lettres ou des nombres, en remplaçant des valeurs par des synonymes d'un fichier d'index ou en supprimant des valeurs en configurant la fonction comme null ou vide.

La liste Function varie selon le type de colonne. Par exemple, une colonne de type String affiche une option Add letters dans la liste et une colonne de type Integer affiche l'option Add digits dans la liste. Cette liste Function, pour une colonne de type Date est spécifique aux dates. Pour plus d'informations concernant les fonctions utilisés dans les colonnes Date, consultez Fonctions de date dans le tDuplicateRow.

-Max Modification Count : saisissez le nombre maximal de valeurs à modifier.

-Synonym Index Path : configurez le chemin du fichier d'index à partir duquel le synonyme est utilisé.

Ce champ est disponible si vous sélectionnez la fonction Synonym replace, ce qui signifie que la valeur dans l'enregistrement en doublon est remplacée par l'un de ses synonymes, selon la probabilité donnée.

Vous devez utiliser le composant tSynonymOutput afin de créer un index Lucene et l'alimenter avec des synonymes. Pour plus d'informations concernant la création d'un index de synonymes et concernant la définition des entrées de références, consultez tSynonymOutput.

Advanced settings

Seed for random generator

Saisissez un nombre (graine aléatoire) si vous souhaitez générer exactement les mêmes doublons pour chaque exécution du Job.

Répéter l'exécution avec une valeur différente pour la graine permet de générer différents doublons.

Laissez ce champ vide si vous souhaitez générer des doublons différents à chaque fois que vous exécutez le Job.

tStat Catcher Statistics

Cochez cette case pour collecter les données de log au niveau des composants.

Utilisation

Règle d'utilisation

Ce composant vous permet de générer des données en doublon d'un flux d'entrée selon certains critères et les utiliser pour tests.