Propriétés du tGenKey MapReduce (déprécié) - 7.3

Identification

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants d'identification
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants d'identification
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants d'identification
Last publication date
2024-02-22

Ces propriétés sont utilisées pour configurer le tGenKey s'exécutant dans le framework de Jobs MapReduce.

Le composant tGenKey MapReduce appartient à la famille Qualité de données.

Le composant de ce framework est disponible dans tous les produits Talend Platform avec Big Data et dans Talend Data Fabric.

Le framework MapReduce est déprécié à partir de la version 7.3 de Talend. Utilisez des Jobs Talend pour Apache Spark afin d'accomplir vos tâches d'intégration.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job.

 

Built-in : le schéma est créé et conservé localement pour ce composant seulement.

 

Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets.

Cliquez sur l'icône d'import pour importer des clés de bloc des règles de rapprochement définies et sauvegardées dans le référentiel du Studio.

Lorsque vous cliquez sur l'icône d'import, un assistant Match Rule Selector s'ouvre pour vous permettre d'importer vos clés de bloc depuis les règles de rapprochement listées dans le référentiel du Studio et les utiliser dans votre Job.

Vous pouvez importer des clés de bloc uniquement depuis les règles de rapprochement définies avec l'algorithme VSR et sauvegardées dans le référentiel du Studio. Pour plus d'informations, consultez Import de règles de mise en correspondance depuis le référentiel du Studio

Column

Sélectionnez la (les) colonne(s)du flux principal sur laquelle vous souhaitez définir certains algorithmes pour définir la clé fonctionnelle.

Remarque : Lorsque vous sélectionnez une colonne de dates sur laquelle appliquer un algorithme ou un algorithme de rapprochement, vous pouvez choisir ce que vous souhaitez comparer dans le format de date.

Par exemple, si vous souhaitez comparer uniquement l'année, attribuez le type Date à la colonne concernée dans le schéma du composant puis saisissez "yyyy" dans le champ Date Pattern. Le composant convertit le format de date en une chaîne de caractères, selon le modèle défini dans le schéma, avant de comparer les chaînes de caractères.

Pre-Algorithm

Au besoin, sélectionnez l'algorithme de correspondance adéquat dans la liste :

Remove diacritical marks : supprime tout signe diacritique.

Remove diacritical marks and lower case : supprime tout signe diacritique et convertit en minuscules avant de générer le code de la colonne.

Remove diacritical marks and upper case : supprime tout signe diacritique et convertit en minuscules avant de générer le code de la colonne.

Lower case : convertit le champ en lettres minuscules avant d'appliquer l'algorithme clé.

Upper case : convertit le champ en lettres majuscules avant d'appliquer l'algorithme clé.

Add left position character : vous permet d'ajouter un caractère à gauche de la colonne.

Add right position character : vous permet d'ajouter un caractère à droite de la colonne.

Value

Définissez la valeur de l'algorithme, là où il peut être appliqué.

Algorithm

Sélectionnez l'algorithme adéquat dans la liste :

First character of each word : inclut dans la clé fonctionnelle le premier caractère de chaque mot dans la colonne. En présence de caractères japonais dans les données d'entrée, le texte d'entrée doit être tokenisé. Pour plus d'informations, consultez le composant tJapaneseTokenize.

N first characters of each word : inclut dans la clé fonctionnelle les N premiers caractères de chaque mot dans la colonne. En présence de caractères japonais dans les données d'entrée, le texte d'entrée doit être tokenisé. Pour plus d'informations, consultez le composant tJapaneseTokenize.

First N characters of the string : inclut dans la clé fonctionnelle les N premiers caractères de la chaîne de caractères.

Last N characters of the string : inclut dans la clé fonctionnelle les N derniers caractères de la chaîne de caractères.

First N consonants of the string : inclut dans la clé fonctionnelle les N premières consonnes de la chaîne de caractères. Les caractères japonais et chinois ne sont pas supportés.

First N vowels of the string : inclut dans la clé fonctionnelle les N premières voyelles de la chaîne de caractères. Les caractères japonais et chinois ne sont pas supportés.

Pick characters : inclut dans la clé fonctionnelle les caractères situés à une position fixe (correspondant au chiffre défini/à la plage définie).

Exact : inclut dans la clé fonctionnelle la chaîne de caractères complète.

Substring(a,b) : inclut dans la clé fonctionnelle un caractère selon l'index défini.

Soundex code : génère un code selon un algorithme anglais standard. Ce code représente la chaîne de caractères qui sera incluse dans la clé fonctionnelle. Les caractères japonais et chinois ne sont pas supportés.

Metaphone code : génère un selon la prononciation des caractères. Ce code représente la chaîne de caractères qui sera incluse dans la clé fonctionnelle. Les caractères japonais et chinois ne sont pas supportés.

Double-metaphone code : génère un code selon la prononciation des caractères en utilisant une nouvelle version de l'algorithme phonétique Metaphone, produisant des résultats plus précis que l'algorithme original. Ce code représente la chaîne de caractères qui sera incluse dans la clé fonctionnelle. Les caractères japonais et chinois ne sont pas supportés.

Fingerprint key : génère une clé fonctionnelle d'une valeur d'une chaîne de caractères via la séquence suivante :
  1. suppression des espaces blancs en début et fin de champ,

  2. passage de tous les caractères en minuscules,

  3. suppression de toute la ponctuation et de tous les caractères de contrôle,

  4. division de la chaîne de caractères en jetons séparés par des espaces blancs,

  5. tri des jetons et suppression des doublons,

  6. fusion des jetons,

    Comme les morceaux des chaînes de caractères sont triés, l'ordre donné des jetons n'importe pas. Cruise, Tom et Tom Cruise obtiennent finalement l'empreinte (clé) cruise tom et terminent dans le même cluster.

  7. normalise les caractères occidentaux étendus par leur représentations ASCII, par exemple gödel par godel.

    Cela reproduit les erreurs des entrées de données effectuées lors de la saisie de caractères étendus avec un clavier ASCII. Cependant, cette procédure peut amener à de faux positifs, par exemple gödel et godél obtiennent godel comme empreinte mais ce sont probablement des noms différents. Cela peut manquer d'efficacité pour des jeux de données dans lesquels des caractères étendus jouent un rôle de différenciation important.

nGramkey : cet algorithme est similaire à la méthode fingerPrintkey décrite ci-dessus. Au lieu d'utiliser des jetons séparés par des espaces, il utilise n-grammes, où n peut être spécifié par l'utilisateur ou l'utilisatrice. Cette méthode génère la clé fonctionnelle d'une valeur d'une chaîne de caractères via la séquence suivante :
  1. passage de tous les caractères en minuscules,

  2. suppression de toute la ponctuation et de tous les caractères de contrôle,

  3. obtient toutes les chaînes de caractères n-grammes,

  4. trie les n-grammes et supprime les doublons,

  5. groupe à nouveau les n-grammes triés,

  6. normalise les caractères occidentaux étendus par leur représentations ASCII, par exemple gödel par godel.

    Par exemple, l'empreinte 2-gramme de Paris est arispari et son empreinte 1-gram est aiprs.

    L'implémentation fournie pour cet algorithme est le 2-gramme.

Remarque :

Si la colonne sur laquelle vous souhaitez utiliser l'algorithme nGramkey est susceptible de contenir des données uniquement composées d'un 0 ou d'un 1, vous devez filtrer ces données avant de générer la clé fonctionnelle. Ainsi, vous évitez potentiellement de comparer des enregistrements à ceux n'étant pas des possibles correspondances.

Cologne phonetics : un algorithme phonétique Soundex optimisé pour l'allemand. Il encode une chaîne de caractères en une valeur phonétique de Cologne. Ce code représente la chaîne de caractères qui sera incluse dans la clé fonctionnelle. Les caractères japonais et chinois ne sont pas supportés.

Value

Définissez la valeur de l'algorithme, là où il peut être appliqué.

Post-Algorithm

Au besoin, sélectionnez l'algorithme de correspondance adéquat dans la liste :

Use default value (chaîne de caractères) : vous permet de choisir une chaîne de caractères pour remplacer des données null ou vides.

Add left position character : vous permet d'ajouter un caractère à gauche de la colonne.

Add right position character : vous permet d'ajouter un caractère à droite de la colonne.

Value

Définissez la valeur de l'option, là où elle est applicable.

Show help

Cochez cette case pour afficher les instructions concernant la définition des paramètres des algorithmes/options.

Advanced settings

tStat Catcher Statistics

Cochez cette case pour collecter les métadonnées de traitement du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Notez que cette case n'est pas disponible dans la version Map/Reduce de ce composant.

Variables globales

Variables globales

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide d'utilisation du Studio Talend.

Utilisation

Règle d'utilisation

Dans un Job Map/Reduce Talend, il est utilisé comme étape intermédiaire, avec d'autres composants Map/Reduce. Ils génèrent nativement du code Map/Reduce pouvant être exécuté directement dans Hadoop.

Pour plus d'informations concernant les Jobs Map/Reduce Talend, consultez les sections décrivant comment créer, convertir et configurer un Job Map/Reduce Talend, dans le Guide de prise en main de Talend Big Data.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données et non des Jobs Map/Reduce.