Propriétés du tGenKey pour Apache Spark Streaming - 7.3

Identification

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants d'identification
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants d'identification
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants d'identification
Last publication date
2024-02-22

Ces propriétés sont utilisées pour configurer le tGenKey s'exécutant dans le framework de Jobs Spark Streaming.

Le composant tGenKey Spark Streaming appartient à la famille Qualité de données.

Ce composant est disponible dans Talend Real Time Big Data Platform et dans Talend Data Fabric.

Basic settings

Schema et Edit schema

Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job.

 

Built-in : le schéma est créé et conservé localement pour ce composant seulement.

 

Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets.

Cliquez sur l'icône d'import pour importer des clés de bloc des règles de rapprochement définies et sauvegardées dans le référentiel du Studio.

Lorsque vous cliquez sur l'icône d'import, un assistant Match Rule Selector s'ouvre pour vous permettre d'importer vos clés de bloc depuis les règles de rapprochement listées dans le référentiel du Studio et les utiliser dans votre Job.

Vous pouvez importer des clés de bloc uniquement depuis les règles de rapprochement définies avec l'algorithme VSR et sauvegardées dans le référentiel du Studio. Pour plus d'informations, consultez Import de règles de mise en correspondance depuis le référentiel du Studio

Column

Sélectionnez la (les) colonne(s)du flux principal sur laquelle vous souhaitez définir certains algorithmes pour définir la clé fonctionnelle.

Remarque : Lorsque vous sélectionnez une colonne de dates sur laquelle appliquer un algorithme ou un algorithme de rapprochement, vous pouvez choisir ce que vous souhaitez comparer dans le format de date.

Par exemple, si vous souhaitez comparer uniquement l'année, attribuez le type Date à la colonne concernée dans le schéma du composant puis saisissez "yyyy" dans le champ Date Pattern. Le composant convertit le format de date en une chaîne de caractères, selon le modèle défini dans le schéma, avant de comparer les chaînes de caractères.

Pre-Algorithm

Au besoin, sélectionnez l'algorithme de correspondance adéquat dans la liste :

Remove diacritical marks : supprime tout signe diacritique.

Remove diacritical marks and lower case : supprime tout signe diacritique et convertit en minuscules avant de générer le code de la colonne.

Remove diacritical marks and upper case : supprime tout signe diacritique et convertit en minuscules avant de générer le code de la colonne.

Lower case : convertit le champ en lettres minuscules avant d'appliquer l'algorithme clé.

Upper case : convertit le champ en lettres majuscules avant d'appliquer l'algorithme clé.

Add left position character : vous permet d'ajouter un caractère à gauche de la colonne.

Add right position character : vous permet d'ajouter un caractère à droite de la colonne.

Value

Définissez la valeur de l'algorithme, là où il peut être appliqué.

Algorithm

Sélectionnez l'algorithme adéquat dans la liste :

First character of each word : inclut dans la clé fonctionnelle le premier caractère de chaque mot dans la colonne. En présence de caractères japonais dans les données d'entrée, le texte d'entrée doit être tokenisé. Pour plus d'informations, consultez le composant tJapaneseTokenize.

N first characters of each word : inclut dans la clé fonctionnelle les N premiers caractères de chaque mot dans la colonne. En présence de caractères japonais dans les données d'entrée, le texte d'entrée doit être tokenisé. Pour plus d'informations, consultez le composant tJapaneseTokenize.

First N characters of the string : inclut dans la clé fonctionnelle les N premiers caractères de la chaîne de caractères.

Last N characters of the string : inclut dans la clé fonctionnelle les N derniers caractères de la chaîne de caractères.

First N consonants of the string : inclut dans la clé fonctionnelle les N premières consonnes de la chaîne de caractères. Les caractères japonais et chinois ne sont pas supportés.

First N vowels of the string : inclut dans la clé fonctionnelle les N premières voyelles de la chaîne de caractères. Les caractères japonais et chinois ne sont pas supportés.

Pick characters : inclut dans la clé fonctionnelle les caractères situés à une position fixe (correspondant au chiffre défini/à la plage définie).

Exact : inclut dans la clé fonctionnelle la chaîne de caractères complète.

Substring(a,b) : inclut dans la clé fonctionnelle un caractère selon l'index défini.

Soundex code : génère un code selon un algorithme anglais standard. Ce code représente la chaîne de caractères qui sera incluse dans la clé fonctionnelle. Les caractères japonais et chinois ne sont pas supportés.

Metaphone code : génère un selon la prononciation des caractères. Ce code représente la chaîne de caractères qui sera incluse dans la clé fonctionnelle. Les caractères japonais et chinois ne sont pas supportés.

Double-metaphone code : génère un code selon la prononciation des caractères en utilisant une nouvelle version de l'algorithme phonétique Metaphone, produisant des résultats plus précis que l'algorithme original. Ce code représente la chaîne de caractères qui sera incluse dans la clé fonctionnelle. Les caractères japonais et chinois ne sont pas supportés.

Fingerprint key : génère une clé fonctionnelle d'une valeur d'une chaîne de caractères via la séquence suivante :
  1. suppression des espaces blancs en début et fin de champ,

  2. passage de tous les caractères en minuscules,

  3. suppression de toute la ponctuation et de tous les caractères de contrôle,

  4. division de la chaîne de caractères en jetons séparés par des espaces blancs,

  5. tri des jetons et suppression des doublons,

  6. fusion des jetons,

    Comme les morceaux des chaînes de caractères sont triés, l'ordre donné des jetons n'importe pas. Cruise, Tom et Tom Cruise obtiennent finalement l'empreinte (clé) cruise tom et terminent dans le même cluster.

  7. normalise les caractères occidentaux étendus par leur représentations ASCII, par exemple gödel par godel.

    Cela reproduit les erreurs des entrées de données effectuées lors de la saisie de caractères étendus avec un clavier ASCII. Cependant, cette procédure peut amener à de faux positifs, par exemple gödel et godél obtiennent godel comme empreinte mais ce sont probablement des noms différents. Cela peut manquer d'efficacité pour des jeux de données dans lesquels des caractères étendus jouent un rôle de différenciation important.

nGramkey : cet algorithme est similaire à la méthode fingerPrintkey décrite ci-dessus. Au lieu d'utiliser des jetons séparés par des espaces, il utilise n-grammes, où n peut être spécifié par l'utilisateur ou l'utilisatrice. Cette méthode génère la clé fonctionnelle d'une valeur d'une chaîne de caractères via la séquence suivante :
  1. passage de tous les caractères en minuscules,

  2. suppression de toute la ponctuation et de tous les caractères de contrôle,

  3. obtient toutes les chaînes de caractères n-grammes,

  4. trie les n-grammes et supprime les doublons,

  5. groupe à nouveau les n-grammes triés,

  6. normalise les caractères occidentaux étendus par leur représentations ASCII, par exemple gödel par godel.

    Par exemple, l'empreinte 2-gramme de Paris est arispari et son empreinte 1-gram est aiprs.

    L'implémentation fournie pour cet algorithme est le 2-gramme.

Remarque :

Si la colonne sur laquelle vous souhaitez utiliser l'algorithme nGramkey est susceptible de contenir des données uniquement composées d'un 0 ou d'un 1, vous devez filtrer ces données avant de générer la clé fonctionnelle. Ainsi, vous évitez potentiellement de comparer des enregistrements à ceux n'étant pas des possibles correspondances.

Cologne phonetics : un algorithme phonétique Soundex optimisé pour l'allemand. Il encode une chaîne de caractères en une valeur phonétique de Cologne. Ce code représente la chaîne de caractères qui sera incluse dans la clé fonctionnelle. Les caractères japonais et chinois ne sont pas supportés.

Value

Définissez la valeur de l'algorithme, là où il peut être appliqué.

Si vous ne définissez pas de valeur pour les algorithmes qui en ont besoin, le Job s'exécute avec une erreur de compilation.

Post-Algorithm

Au besoin, sélectionnez l'algorithme de correspondance adéquat dans la liste :

Use default value (chaîne de caractères) : vous permet de choisir une chaîne de caractères pour remplacer des données null ou vides.

Add left position character : vous permet d'ajouter un caractère à gauche de la colonne.

Add right position character : vous permet d'ajouter un caractère à droite de la colonne.

Value

Définissez la valeur de l'option, là où elle est applicable.

Show help

Cochez cette case pour afficher les instructions concernant la définition des paramètres des algorithmes/options.

Global Variables

Variables globales

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide d'utilisation du Studio Talend.

Utilisation

Règle d'utilisation

Ce composant, ainsi que les composants Spark Streaming de la Palette à laquelle il appartient, s'affichent uniquement lorsque vous créez un Job Spark Streaming.

Ce composant est utilisé comme étape intermédiaire.

Vous devez utiliser l'onglet Spark Configuration dans la vue Run afin de définir la connexion à un cluster Spark donné pour le Job entier.

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Pour plus d'informations concernant les Jobs Spark Streaming Talend, consultez les sections décrivant comment créer, convertir et configurer un Job Spark Streaming Talend dans le Guide de prise en main de Talend Big Data.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Connexion à Spark

Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode (Yarn Client ou Yarn Cluster) :
    • Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration.

    • Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration.

    • Lorsque vous utilisez Altus, spécifiez le bucket S3 ou le stockage Azure Data Lake Storage (aperçu technique) pour le déploiement du Job, dans l'onglet Spark configuration.
    • Lorsque vous utilisez Qubole, ajoutez tS3Configuration à votre Job pour écrire vos données métier dans le système S3 avec Qubole. Sans tS3Configuration, ces données métier sont écrites dans le système Qubole HDFS et détruites une fois que vous arrêtez votre cluster.
    • Lorsque vous utilisez des distributions sur site (on-premises), utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser le tHDFSConfiguration.

  • Standalone mode : utilisez le composant de configuration correspondant au système de fichiers que votre cluster utilise, comme le tHDFSConfiguration Apache Spark Batch ou le tS3Configuration Apache Spark Batch.

    Si vous utilisez Databricks sans composant de configuration dans votre Job, vos données métier sont écrites directement dans DBFS (Databricks Filesystem).

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.