Propriétés du tGenKey pour Apache Spark Streaming - 6.5

Identification

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants d'identification
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants d'identification
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants d'identification
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tGenKey s'exécutant dans le framework de Jobs Spark Streaming.

Le composant tGenKey Spark Streaming appartient à la famille Data Quality.

Le composant de ce framework est disponible dans Talend Real Time Big Data Platform et dans Talend Data Fabric.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) dans le Repository. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job.

 

Built-in : le schéma est créé et conservé localement pour ce composant seulement.

 

Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets.

Cliquez sur l'icône d'import pour importer des clés de bloc des règles de mise en correspondance définies et sauvegardées dans le référentiel du Studio.

Lorsque vous cliquez sur l'icône d'import, un assistant [Match Rule Selector] s'ouvre pour vous permettre d'importer vos clés de bloc depuis les règles de mise en correspondance listées dans le référentiel du Studio et les utiliser dans votre Job.

Vous pouvez importer des clés de bloc uniquement depuis les règles de mise en correspondance définies avec l'algorithme VSR et sauvegardées dans le référentiel du studio. Pour plus d'informations, consultez Import de règles de mise en correspondance depuis le référentiel du studio.

Column

Sélectionnez la (les) colonne(s)du flux principal sur laquelle vous souhaitez définir certains algorithmes pour définir la clé fonctionnelle.

Remarque : Lorsque vous sélectionnez une colonne de dates sur laquelle appliquer un algorithme ou un algorithme de mise en correspondance, vous pouvez choisir ce que vous souhaitez comparer dans le format de date.

Par exemple, si vous souhaitez comparer uniquement l'année, attribuez le type Date à la colonne concernée dans le schéma du composant puis saisissez "yyyy" dans le champ Date Pattern. Le composant convertit le format de date en une chaîne de caractères, selon le modèle défini dans le schéma, avant de comparer les chaînes de caractères.

Pre-Algorithm

Au besoin, sélectionnez l'algorithme de correspondance adéquat dans la liste :

Remove diacritical marks : supprime tout signe diacritique.

Remove diacritical marks and lower case : supprime tout signe diacritique et convertit en minuscules avant de générer le code de la colonne.

Remove diacritical marks and upper case : supprime tout signe diacritique et convertit en minuscules avant de générer le code de la colonne.

Lower case : convertit le champ en lettres minuscules avant d'appliquer l'algorithme clé.

Upper case : convertit le champ en lettres majuscules avant d'appliquer l'algorithme clé.

Add left position character : vous permet d'ajouter un caractère à gauche de la colonne.

Add right position character : vous permet d'ajouter un caractère à droite de la colonne.

Value

Définissez la valeur de l'algorithme, là où il peut être appliqué.

Algorithm

Sélectionnez l'algorithme adéquat dans la liste :

First character of each word : inclut dans la clé fonctionnelle le premier caractère de chaque mot dans la colonne.

N first characters of each word : inclut dans la clé fonctionnelle les N premiers caractères de chaque mot dans la colonne.

First N characters of the string : inclut dans la clé fonctionnelle les N premiers caractères de la chaîne de caractères.

Last N characters of the string : inclut dans la clé fonctionnelle les N derniers caractères de la chaîne de caractères.

First N consonants of the string : inclut dans la clé fonctionnelle les N premières consonnes de la chaîne de caractères.

First N vowels of the string : inclut dans la clé fonctionnelle les N premières voyelles de la chaîne de caractères.

Pick characters : inclut dans la clé fonctionnelle les caractères situés à une position fixe (correspondant au chiffre défini/à la plage définie).

Exact : inclut dans la clé fonctionnelle la chaîne de caractères complète.

Substring(a,b) : inclut dans la clé fonctionnelle un caractère selon l'index défini.

Soundex code : génère un code selon un algorithme anglais standard. Ce code représente la chaîne de caractères qui sera incluse dans la clé fonctionnelle.

Metaphone code : génère un selon la prononciation des caractères. Ce code représente la chaîne de caractères qui sera incluse dans la clé fonctionnelle.

Double-metaphone code : génère un code selon la prononciation des caractères en utilisant une nouvelle version de l'algorithme phonétique Metaphone, produisant des résultats plus précis que l'algorithme original. Ce code représente la chaîne de caractères qui sera incluse dans la clé fonctionnelle.

Fingerprint key : génère une clé fonctionnelle d'une valeur d'une chaîne de caractères via la séquence suivante :
  1. supprime les espaces vides en début et fin de champ,

  2. passe tous les caractères en minuscules,

  3. supprime tous les caractères de ponctuation et de contrôle,

  4. divise la chaîne de caractères en jetons séparés par des espaces,

  5. trie les jetons et supprime les doublons,

  6. groupe à nouveau les jetons,

    Comme les parties de la chaîne de caractères sont triées, l'ordre des jetons n'a pas d'importance. Cruise, Tom et Tom Cruise obtiennent finalement l'empreinte (clé) cruise tom et terminent dans le même cluster.

  7. normalise les caractères occidentaux étendus par leur représentations ASCII, par exemple gödel par godel.

    Cette procédure reproduit les erreurs des entrées de données produites lors de la saisie de caractères étendus par un clavier ASCII. Cependant, cette procédure peut amener à de faux positifs, par exemple gödel et godél obtiennent godel comme empreinte mais ce sont probablement des noms différents. Cela fonctionne moins efficacement pour les ensembles de données où les caractères étendus jouent un rôle important de différenciation.

nGramkey : cet algorithme est similaire à la méthode fingerPrintkey décrite ci-dessus. Au lieu d'utiliser des jetons séparés par des espaces, il utilise n-grammes, où n peut être spécifié par l'utilisateur. Cette méthode génère la clé fonctionnelle d'une valeur d'une chaîne de caractères via la séquence suivante :
  1. passe tous les caractères en minuscules,

  2. supprime tous les caractères de ponctuation et de contrôle,

  3. obtient toutes les chaînes de caractères n-grammes,

  4. trie les n-grammes et supprime les doublons,

  5. groupe à nouveau les n-grammes triés,

  6. normalise les caractères occidentaux étendus par leur représentation ASCII, par exemple gödel par godel.

    Par exemple, l'empreinte 2-gramme de Paris est arispari et son empreinte 1-gram est aiprs.

    L'implémentation fournie pour cet algorithme est le 2-gramme.
    Remarque :

    Si la colonne sur laquelle vous souhaitez utiliser l'algorithme nGramkey est susceptible de contenir des données uniquement composées d'un 0 ou d'un 1, vous devez filtrer ces données avant de générer la clé fonctionnelle. Ainsi, vous évitez potentiellement de comparer des enregistrements à ceux n'étant pas des possibles correspondances.

Cologne phonetics : un algorithme phonétique Soundex optimisé pour l'allemand. Il encode une chaîne de caractères en une valeur phonétique de Cologne. Ce code représente la chaîne de caractères qui sera incluse dans la clé fonctionnelle.

Value

Définissez la valeur de l'algorithme, là où il peut être appliqué.

Si vous ne définissez pas de valeur pour les algorithmes qui en ont besoin, le Job s'exécute avec une erreur de compilation.

Post-Algorithm

Au besoin, sélectionnez l'algorithme de correspondance adéquat dans la liste :

Use default value (chaîne de caractères) : vous permet de choisir une chaîne de caractères pour remplacer des données null ou vides.

Add left position character : vous permet d'ajouter un caractère à gauche de la colonne.

Add right position character : vous permet d'ajouter un caractère à droite de la colonne.

Value

Définissez la valeur de l'option, là où elle est applicable.

Show help

Cochez cette case pour afficher les instructions concernant la définition des paramètres des algorithmes/options.

Global Variables

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend .

Utilisation

Règle d'utilisation

Ce composant, ainsi que les composants Spark Streaming de la Palette à laquelle il appartient, s'affichent uniquement lorsque vous créez un Job Spark Streaming.

Ce composant est utilisé comme étape intermédiaire.

Vous devez utiliser l'onglet Spark Configuration dans la vue Run afin de définir la connexion à un cluster Spark donné pour le Job entier.

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Pour plus d'informations concernant les Jobs Spark Streaming Talend, consultez les sections décrivant comment créer, convertir et configurer un Job Spark Streaming Talend, dans le Guide de prise en main de Talend Open Studio for Big Data.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Spark Connection

Vous devez utiliser l'onglet Spark Configuration dans la vue Run afin de définir la connexion à un cluster Spark donné pour le Job entier. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode : lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration. Lorsque vous utilisez d'autres distributions, utilisez un composant tHDFSConfiguration afin de spécifier le répertoire.

  • Standalone mode : vous devez choisir le composant de configuration selon le système de fichiers que vous utilisez, comme tHDFSConfiguration ou tS3Configuration.

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.