tMatchPairing - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'une des solutions Big Data de Talend.

Fonction

Le tMatchPairing lit un jeu de données ligne par ligne, exclut les lignes uniques et les doublons exacts dans des fichiers séparés. Il calcule des paires d'enregistrements suspects selon la définition d'une clé de bloc. Il crée un échantillon d'enregistrements suspects représentatif du jeu de données.

Ce composant s'exécute uniquement avec Spark 1.6+ et Spark 2.0.

Objectif

Le tMatchPairing vous permet de calculer des paires de doublons suspects de toute source de données, y compris dans de grands volumes, à l'aide d'une clé de bloc. Il crée également un échantillon de paires suspectes.

Vous pouvez utiliser cet échantillon de paires suspectes avec le composant tMatchModel après avoir libellé le second élément de chaque paire. Pour plus d'informations, consultez tMatchModel.

Propriétés du tMatchPairing dans des Jobs Spark Batch

Famille du composant

Data Quality

 

Basic settings

Define a storage configuration component

Sélectionnez le composant de configuration à utiliser pour fournir les informations de configuration pour la connexion au système de fichiers cible, comme HDFS.

Si vous laissez cette case décochée, le système de fichiers cible est le système local.

Notez que le composant de configuration à utiliser doit se trouver dans le même Job. Par exemple, si vous avez ajouté un tHDFSConfiguration dans votre Job, vous pouvez le sélectionner pour écrire le résultat dans un système HDFS donné.

 

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Cliquez sur le bouton Sync columns pour récupérer le schéma du composant précédent.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

Le schéma de sortie de ce composant comporte des colonnes en lecture seule dans ses liens de sortie :

PAIR_ID et Score : utilisés uniquement avec les liens de sortie Pairs et Pairs sample. La première colonne contient les identifiants des paires suspectes et la seconde contient les similarités entre les enregistrements dans chaque paire.

LABEL : utilisée uniquement avec le lien de sortie Pairs sample. Dans le Job, vous devez renseigner manuellement cette colonne à l'aide du composant tMatchModel. Pour plus d'informations, consultez tMatchModel.

COUNT : utilisée uniquement avec le lien de sortie Exact duplicates. Cette colonne donne le nombre d'occurrences des enregistrements qui correspondent exactement.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Blocking key

Sélectionnez les colonnes à l'aide desquelles vous souhaitez élaborer la clé de bloc.

Cette clé de bloc est utilisée pour générer des suffixes, eux-mêmes utilisés pour regrouper des enregistrements.

 

Suffix array blocking parameters

Min suffix length : Définissez la longueur minimale du suffixe à atteindre ou à ne pas dépasser dans chaque groupe.

Max block size : Définissez le nombre maximal d'enregistrements à avoir dans chaque bloc. Ceci aide au filtrage dans les blocs volumineux où le suffixe est trop courant, comme tion et ing par exemple.

 

Pairing model location

Folder : configurez le chemin d'accès au dossier local où générer les fichiers modèles.

Si vous souhaitez stocker le modèle dans un système de fichiers spécifique, par exemple S3 ou HDFS, vous devez utilisez le composant correspondant dans le Job et cochez la case Define a storage configuration component dans l'onglet Basic settings du composant.

Le bouton pour parcourir votre système ne fonctionne pas en mode Local de Spark. Si vous utilisez le mode Yarn ou Standalone de Spark, assurez-vous d'avoir correctement configuré la connexion dans un composant de configuration au sein du même Job, comme le tHDFSConfiguration.

Advanced settings

Filtering threshold

Saisissez une valeur entre 0.2 et 0.85 pour filtrer les paires d'enregistrements suspects, en se basant sur les scores calculés. Cette valeur permet d'exclure les paires peu similaires.

0.3 est la valeur par défaut. Plus la valeur est haute, plus les enregistrements sont similaires.

 

Pairs sample

Number of pairs : saisissez une taille pour l'échantillon de paires suspectes à générer. La valeur par défaut est 10000.

Cochez cette case et, dans le champ Seed qui s'affiche, saisissez un nombre aléatoire si vous souhaitez obtenir le même échantillon de paires lors des différentes exécutions du Job. Répéter l'exécution avec une valeur différente du nombre permet d'extraire des échantillons de paires. Les scores des paires peuvent être différents également, si le nombre total de paires est supérieur ou non à 10 000.

 

Use Timestamp format for Date type

Cochez cette case pour écrire en sortie les dates, heures, minutes et secondes contenues dans vos données de type Date. Si vous décochez cette case, seuls les années, les mois et les jours sont écrits en sortie.

Utilisation dans des Jobs Spark Batch

Ce composant est utilisé comme étape intermédiaire.

Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch.

Connexion à Spark Batch

Vous devez utiliser l'onglet Spark Configuration de la vue Run afin de définir la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, un (et un seul) composant relatif à un système de fichiers de la famille Storage est requis au sein du même Job, afin que Spark puisse utiliser ce composant pour se connecter au système de fichiers auquel les fichiers .jar dépendants du Job sont transférés :

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Rapprochement sur Spark

À l'aide du Studio Talend, vous pouvez mettre en correspondance un grand volume de données, via l'apprentissage automatique dans Spark. Cette fonctionnalité vous permet de rapprocher un grand nombre d'enregistrements, via une intervention humaine minimale.

L'apprentissage automatique avec Spark comprend généralement deux phases: la première phase calcule un modèle (apprend à la machine) en se basant sur l'historique des données et les heuristiques mathématiques. La seconde phase applique le modèle sur de nouvelles données. Dans le Studio, la première phase est implémentée par deux Jobs, un comprenant un composant tMatchPairing et un comprenant un tMatchModel. La seconde phase est implémentée par un troisième Job contenant un tMatchPredict.

Deux workflows sont possibles lors du rapprochement dans Spark avec le Studio.

Dans le premier workflow, le tMatchPairing :

  • calcule des paires d'enregistrements suspects en se basant sur la définition d'une clé de bloc,

  • crée un échantillon d'enregistrements suspects représentatif du jeu de données,

  • sépare les enregistrements uniques des enregistrements correspondant exactement,

  • génère un modèle de paires à utiliser avec le tMatchPredict.

Vous pouvez manuellement libeller les enregistrements suspects de l'échantillon avant de les utiliser avec le tMatchModel dans le second Job, où le tMatchModel :

  • calcule les similarités entre les enregistrements dans chaque paire suspecte,

  • apprend un modèle de classification en se basant sur l'algorithme Random Forest.

Le tMatchPredict libelle les enregistrements suspects automatiquement et groupe les enregistrements suspects correspondant au(x) libellé(s) configuré(s) dans les propriétés du composant.

Dans le second workflow, le tMatchPredict utilise directement sur les nouvelles données le modèle de paires généré par le tMatchPairing et le modèle de rapprochement généré par le tMatchModel, puis :

  • libelle automatiquement les enregistrements suspects,

  • groupe les enregistrements suspects correspondant au(x) libellé(s) configuré(s) dans les propriétés du composant,

  • sépare les doublons exacts des enregistrements uniques.

Scénario : Création de paires suspectes et d'un échantillon de paires suspectes à partir d'un jeu de données

À l'aide du composant tMatchPairing, vous pouvez calculer des paires d'enregistrements suspects selon la définition d'une clé de bloc et créer un échantillon d'enregistrements suspects représentatif du jeu de données.

Le tMatchPairing génère un modèle de paires utilisé par le composant tMatchPredict sur les paires suspectes pour analyser les données et exclure les enregistrements uniques.

Ce scénario décrit un Job qui utilise :

  • un composant tFixedFlowInput pour générer des données d'entrée,

  • un composant tMatchPairing pour pré-analyser les données et calculer des paires d'enregistrements suspects,

  • deux composants tFileOutputDelimited pour écrire en sortie les doublons suspects et un échantillon des paires suspectes,

  • deux composants tLogRow pour écrire en sortie les enregistrements uniques et les doublons exacts.

Distributions Hadoop supportées : Ce composant s'exécute avec les distributions suivantes de Hadoop, avec Spark 1.6 et Spark 2.0 :

  • Spark 1.6 : CDH5.7, CDH5.8, HDP2.4.0, HDP2.5.0, MapR5.2.0, EMR4.5.0, EMR4.6.0.

  • Spark 2.0 : EMR5.0.0.

Configurer le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFixedFlowInput, un tMatchPairing, deux tFileOutputDelimited et deux tLogRow.

  2. Reliez le composant tFixedFlowInput au composant tMatchPairing à l'aide d'un lien Row > Main.

  3. Reliez le tMatchPairing aux composants Fichier de sortie à l'aide des liens Pairs et Pairs sample. Reliez-le également aux composants tLogRow à l'aide des liens Exact duplicates et Unique rows.

Configurer la connexion à Spark

  1. Cliquez sur l'onglet Run pour ouvrir sa vue et cliquez sur l'onglet Spark Configuration pour afficher cette vue de configuration de la connexion à Spark.

    Cette vue ressemble à l'image ci-dessous :

  2. Sélectionnez le type de cluster Spark auquel vous connecter.

    • Local : le Studio construit l'environnement Spark en lui-même au moment de l'exécution locale du Job dans le Studio. Avec ce mode, chaque processeur de la machine locale est utilisé comme Worker Spark pour effectuer les calculs. Ce mode requiert la configuration d'un minimum de paramètres dans la vue de configuration.

      Notez que cette machine locale est la machine sur laquelle s'exécute le Job. Le mode Local est le mode par défaut. Vous devez décocher cette case pour afficher la liste déroulante dans laquelle sélectionner les autres modes.

    • Standalone : le Studio se connecte à un cluster compatible Spark pour exécuter le Job depuis ce cluster.

    • Yarn client : le Studio exécute le pilote Spark pour orchestrer la manière dont sera exécuté le Job puis envoie l'orchestration au service Yarn d'un cluster Hadoop donné, afin que le Resource Manager de ce service Yarn demande des ressources pour l'exécution.

  3. Si vous utilisez le mode Yarn client, la liste Property type s'affiche et vous permet de sélectionner une connexion à Hadoop établie depuis le Repository, si vous avez créé cette connexion dans le Repository. Le Studio réutilise l'ensemble des informations de connexion pour ce Job.

    Pour plus d'informations concernant la création d'une connexion Hadoop dans le Repository, consultez le chapitre décrivant le nœud Hadoop cluster dans le Guide utilisateur du Studio Talend.

  4. Sélectionnez la version de la distribution Hadoop à utiliser avec Spark.

    • Si vous sélectionnez Microsoft HD Insight 3.4, vous devez configurer les connexions au service Livy, au service HD Insight et au service Windows Azure Storage du cluster, dans les zones qui s'affichent. Une vidéo de démonstration relative à la configuration d'une connexion à un cluster Microsoft HD Insight est disponible à l'adresse suivante : https://www.youtube.com/watch?v=A3QTT6VsNoM (en anglais).

      Le nom de l'hôte (Hostname) de Livy utilise la syntaxe suivante : nom_de_votre_cluster_spark.azurehdinsight.net. Pour plus d'informations concernant le service Livy utilisé par HD Insight, consultez Submit Spark jobs using Livy (en anglais).

    • Si vous sélectionnez Amazon EMR, consultez l'article suivant concernant la configuration de la connexion : Amazon EMR - Getting Started (en anglais) sur Talend Help Center (https://help.talend.com). Il est recommandé d'installer votre JobServer Talend dans le cluster EMR. Pour plus d'informations concernant ce JobServer, consultez le Guide d'installation Talend.

    Si vous ne trouvez pas votre distribution dans la liste déroulante, cela signifie que la distribution à laquelle vous souhaitez vous connecter n'est pas officiellement supportée par Talend. Dans ce cas, vous pouvez sélectionner Custom puis la version de Spark, dans la liste Spark version, du cluster auquel vous connecter. Cliquez sur le bouton pour afficher une boîte de dialogue dans laquelle vous pouvez :

    1. Sélectionner Import from existing version pour importer une distribution officiellement supportée comme base et ajouter d'autres fichiers .jar requis que la distribution de base ne fournit pas.

    2. Sélectionner Import from zip pour importer le .zip de configuration pour la distribution personnalisée à utiliser. Ce fichier .zip doit contenir les bibliothèques des différents éléments Hadoop/Spark et le fichier d'index de ces bibliothèques.

      Notez que les versions personnalisées ne sont pas officiellement supportées par Talend. Talend et sa communauté fournissent l'opportunité de vous connecter à des versions personnalisées depuis le Studio mais ne peuvent vous garantir la simplicité de la configuration de la version que vous choisissez. Il est recommandé de configurer ces connexions si vous avez une expérience suffisante de Hadoop et de Spark pour gérer par vous-mêmes les problèmes pouvant survenir.

  5. Configurez les informations de connexion aux principaux services du cluster à utiliser.

    Si vous utilisez le mode Yarn client, vous devez saisir les adresses des différents services dans les champs correspondants (si vous laissez décochée la case d'un service, lors de l'exécution, la configuration du paramètre en question du cluster Hadoop sera ignorée) :

    • Dans le champ Resource manager, saisissez l'adresse du service ResourceManager du cluster Hadoop à utiliser.

    • Cochez la case Set resourcemanager scheduler address et saisissez l'adresse de l'ordonnanceur (Scheduler) dans le champ qui apparaît.

    • Cochez la case Set jobhistory address et saisissez l'emplacement du serveur JobHistory du cluster Hadoop à utiliser. Cela permet de stocker les informations relatives aux métriques du Job courant sur le serveur JobHistory.

    • Cochez la case Set staging directory et saisissez le chemin d'accès au répertoire défini dans votre cluster Hadoop pour les fichiers temporaires créés par l'exécution de programmes. Ce répertoire se trouve sous la propriété yarn.app.mapreduce.am.staging-dir dans les fichiers de configuration, notamment les fichiers yarn-site.xml et mapred-site.xml de votre distribution.

    • Si vous accédez au cluster Hadoop s'exécutant avec la sécurité Kerberos, cochez cette case. Saisissez les noms des principaux Kerberos pour le service du ResourceManager et le service du JobHistory dans les champs qui s'affichent. Cela vous permet d'utiliser votre identifiant pour vous authentifier par rapport aux informations stockées dans Kerberos. Ces principaux se trouvent dans les fichiers de configuration de votre distribution. Par exemple, dans une distribution CDH4, le Principal du ResourceManager est configuré dans le fichier yarn-site.xml et celui du JobHistory dans le fichier mapred-site.xml.

      • Si ce cluster est un cluster MapR de version 4.0.1 ou postérieure, vous pouvez paramétrer la configuration de l'authentification par ticket MapR en plus ou comme une alternative en suivant les explications dans Connexion sécurisée à MapR.

        Gardez à l'esprit que cette configuration génère un nouveau ticket de sécurité MapR pour le nom d'utilisateur défini dans le Job dans chaque exécution. Si vous devez réutiliser un ticket existant provenant du même utilisateur, laissez décochées les cases Force MapR ticket authentication et Use Kerberos authentication. MapR devrait pouvoir trouver automatiquement ce ticket à la volée.

      Si vous souhaitez utiliser un fichier Kerberos keytab pour vous identifier, cochez la case Use a keytab to authenticate. Un fichier keytab contient des paires de principaux et clés cryptées Kerberos. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab.

      Notez que l'utilisateur qui exécute un Job utilisant un keytab n'est pas forcément celui désigné par le principal mais qu'il doit avoir le droit de lecture pour le fichier keytab utilisé. Par exemple, le nom d'utilisateur que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier keytab à utiliser.

    • Le champ User name est disponible lorsque vous n'utilisez pas Kerberos pour vous authentifier. Dans ce champ, saisissez votre identifiant pour cette distribution. Si vous laissez le champ vide, le nom de la machine hébergeant le Studio sera utilisé.

      Comme le Job doit charger dans HDFS des fichiers .jar du cluster à utiliser, vous devez vous assurer que le nom d'utilisateur est le même que celui défini dans le tHDFSConfiguration, le composant utilisé pour fournir à Spark les informations de connexion à HDFS.

    Si vous utilisez le mode Standalone, vous devez configurer les paramètres suivants :

    • Dans le champ Spark host, saisissez l'URI du Spark Master du cluster Hadoop utilisé.

    • Dans le champ Spark home, saisissez l'emplacement où l'exécutable Spark est installé dans le cluster Hadoop utilisé.

  6. Si vous devez exécuter le Job courant sous Windows, il est recommandé de spécifier où le programme winutils.exe à utiliser est stocké.

    • Si vous savez où se trouve le fichier winutils.exe et que vous souhaitez l'utiliser, cochez la case Define the Hadoop home directory et saisissez le répertoire dans lequel est stocké winutils.exe.

    • Sinon, laissez cette case décochée. Le Studio en génère un par lui-même et l'utilise pour le Job.

  7. Si le cluster Spark ne peut reconnaître la machine sur laquelle le Job est lancé, cochez la case Define the driver hostname or IP address et saisissez le nom de l'hôte ou l'adresse IP de cette machine. Cela permet au Master et à son Worker Spark de reconnaître la machine où se trouve le Job et donc son pilote.

    Notez que, dans cette situation, vous devez également ajouter le nom et l'adresse IP de cette machine dans son fichier host.

  8. Si vous souhaitez que le Job résiste aux échecs, cochez la case Activate checkpointing pour activer l'opération Spark de point de contrôle. Dans le champ qui s'affiche, saisissez le répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données de contexte des calculs de Streaming, comme les métadonnées et les RDD générés par ce calcul.

    Pour plus d'informations concernant les points de contrôle Spark, consultez http://spark.apache.org/docs/1.3.0/streaming-programming-guide.html#checkpointing (en anglais).

  9. Cochez la case Set Tuning properties pour optimiser l'allocation des ressources à utiliser pour exécuter le Job. Ces propriétés ne sont pas obligatoires pour que le Job s'exécute correctement, mais elles sont utiles lorsque Spark est congestionné par des problèmes de ressources dans le cluster, comme le processeur, la bande passante ou la mémoire :

    • Driver memory et Driver core : saisissez la taille de la mémoire et le nombre de cœurs à allouer au pilote du Job courant.

    • Executor memory : saisissez la taille de la mémoire à allouer à chaque exécuteur Spark.

    • Set executor memory : cochez cette case et, dans le champ qui s'affiche, saisissez le montant de mémoire hors tas (off-heap) en Mo à allouer pour chaque exécuteur. Il s'agit de la propriété spark.yarn.executor.memoryOverhead.

    • Core per executor : cochez cette case et, dans le champ affiché, saisissez le nombre de cœurs à utiliser par chaque exécuteur. Si vous laissez cette case décochée, l'allocation définie par défaut par Spark est utilisée. Par exemple, tous les cœurs disponibles sont utilisés par un exécuteur en mode Standalone.

    • Set Web UI port : si vous devez modifier le port par défaut de l'application Web de Spark, cochez cette case et saisissez le numéro du port à utiliser.

    • Broadcast factory : sélectionnez l'implémentation du broadcast à utiliser pour mettre les variables en cache sur chaque machine de Worker.

    • Customize Spark serializer : si vous devez importer un sérialiseur Spark externe, cochez cette case et, dans le champ qui s'affiche, saisissez le nom de la classe entièrement qualifié du sérialiseur à utiliser.

    • Yarn resource allocation : sélectionnez la manière dont vous souhaitez que Yarn alloue des ressources parmi les exécuteurs.

      • Auto : vous laissez Yarn utiliser son nombre d'exécuteurs par défaut, à savoir 2.

      • Fixed : vous devez saisir le nombre d'exécuteurs à utiliser dans le champ Num executors qui s'affiche.

      • Dynamic : Yarn modifie le nombre d'exécuteurs afin de s'adapter à la charge de travail. Vous devez définir l'échelle de cette allocation dynamique en définissant le nombre initial d'exécuteurs à exécuter dans le champ Initial executors, le nombre le plus faible d'exécuteurs dans le champ Min executors et le plus grand nombre d'exécuteurs dans le champ Max executors.

      Cette fonctionnalité est disponible en mode Yarn client uniquement.

  10. Dans le champ Spark "scratch" directory, saisissez le répertoire dans lequel le Studio stocke, dans le système local, les fichiers temporaires comme les fichiers .jar à transférer. Si vous lancez votre Job sous Windows, le disque par défaut est C:. Si vous laissez /tmp dans ce champ, le répertoire est C:/tmp.

  11. En mode Yarn client, vous pouvez activer les logs de l'application Spark de ce Job pour qu'ils soient persistants dans le système de fichiers. Pour ce faire, cochez la case Enable Spark event logging.

    Les paramètres relatifs aux logs Spark s'affichent :

    • Spark event logs directory : saisissez le répertoire où sont enregistrés les événements Spark. Il s'agit de la propriété spark.eventLog.dir.

    • Spark history server address : saisissez l'emplacement du serveur de l'historique. Il s'agit de la propriété spark.yarn.historyServer.address.

    • Compress Spark event logs : si nécessaire, cochez la case pour compresser les logs. Il s'agit de la propriété spark.eventLog.compress.

    Comme l'administrateur de votre cluster peut avoir défini ces propriétés dans les fichiers de configuration du cluster, contactez l'administrateur pour obtenir les valeurs exactes.

  12. Dans la table Advanced properties, ajoutez toute propriété Spark à utiliser pour écraser la propriété équivalente utilisée par le Studio.

    Les propriétés avancées requises par les différentes distributions Hadoop et leurs valeurs sont listées ci-dessous :

    • Hortonworks Data Platform V2.4 :

      • spark.yarn.am.extraJavaOptions : -Dhdp.version=2.4.0.0-169

      • spark.driver.extraJavaOptions : -Dhdp.version=2.4.0.0-169

      Vous devez également ajouter -Dhdp.version=2.4.0.0-169 dans la zone JVM settings, soit dans l'onglet Advanced settings de la vue Run, soit dans la vue Talend > Run/Debug de la fenêtre [Preferences]. La configuration de cet argument dans la fenêtre [Preferences] l'applique à tous les Jobs conçus dans le même Studio.

    • MapR V5.1 et V5.2 lorsque le cluster est utilisé avec la HBase ou les composants MapRDB :

      • spark.hadoop.yarn.application.classpath : saisissez la valeur de ce paramètre spécifique à votre cluster et ajoutez, s'il n'est pas renseigné, le classpath vers HBase pour vous assurer que le Job à utiliser trouve les classes et les packages dans le cluster.

        Par exemple, si la version HBase installée dans le cluster est 1.1.1, copiez-collez tous les chemins d'accès définis dans le paramètre spark.hadoop.yarn.application.classpath de votre cluster et ajoutez ensuite opt/mapr/hbase/hbase-1.1.1/lib/* et /opt/mapr/lib/* à ces chemins d'accès. Séparez les chemins d'accès par une virgule. Les chemins d'accès ajoutés indiquent les endroits où HBase est généralement installé dans le cluster MapR. Si votre HBase est installée autre part, contactez l'administrateur de votre cluster pour plus de détails et pour adapter ces chemins d'accès.

        Pour une explication détaillée relative à l'ajout de ce paramètre, consultez l'article Les Jobs HBase/MapR-DB ne peuvent pas être exécutés correctement avec MapR 5.1 ou 5.2 sur Talend Help Center.

    Pour plus d'informations concernant les propriétés Spark valides, consultez la documentation Spark à l'adresse https://spark.apache.org/docs/latest/configuration (en anglais).

  13. Si vous utilisez Cloudera V5.5 ou une version supérieure, vous pouvez cocher la case Use Cloudera Navigator pour permettre au Cloudera Navigator de votre distribution de suivre le lignage de vos Jobs jusqu'au niveau des composants, notamment les modifications des schémas entre les composants.

    Lorsque cette option est activée, vous devez configurer les paramètres suivants :

    • Username et Password : informations d'authentification utilisées pour vous connecter à votre Cloudera Navigator.

    • Cloudera Navigator URL : saisissez l'emplacement du Cloudera Navigator auquel se connecter.

    • Cloudera Navigator Metadata URL : saisissez l'emplacement où sont stockées les métadonnées (Navigator Metadata).

    • Activate the autocommit option : cochez cette case pour que le Cloudera Navigator génère le lignage du Job courant à la fin de son exécution.

      Comme cette option force le Cloudera Navigator à générer des lignages de toutes ses entités disponibles, tels que les fichiers et répertoires HDFS, les requêtes Hive ou les scripts Pig, il n'est pas recommandé de l'utiliser dans un environnement de production, car elle ralentit le Job.

    • Kill the job if Cloudera Navigator fails : cochez cette case pour arrêter l'exécution du Job lorsque la connexion à Cloudera Navigator échoue.

      Sinon, laissez cette case décochée pour que votre Job continue à s'exécuter.

    • Disable SSL validation : cochez cette case pour que votre Job se connecte au Cloudera Navigator sans processus de validation SSL.

      Cette fonctionnalité est conçue pour simplifier les tests de vos Jobs mais il n'est pas recommandé de l'utiliser dans un cluster en production.

  14. Si vous utilisez Hortonworks Data Platform V2.4.0 ou supérieure et que vous avez installé Atlas dans votre cluster, vous pouvez cocher la case Use Atlas, afin de permettre le lignage du Job au niveau des composants, notamment les modifications de schéma entre les composants.

    Lorsque cette option est activée, vous devez configurer les paramètres suivants :

    • Atlas URL : saisissez l'emplacement d'Atlas auquel se connecter. C'est généralement http://nom_de_votre_noeud_atlas:port

    • Die on error: cochez cette case pour arrêter l'exécution du Job lorsque des problèmes relatifs à Atlas surviennent, par exemple des problèmes de connexion à Atlas.

      Sinon, laissez cette case décochée pour que votre Job continue à s'exécuter.

    Dans les champs Username et Password, saisissez respectivement l'identifiant et le mot de passe d'authentification pour accéder à Atlas.

Configurer le composant d'entrée

Les données utilisées avec le composant tMatchPairing doivent contenir des enregistrements en doublon, sinon, le modèle généré ne donne pas de résultats réels lorsqu'il est utilisé sur toutes les paires suspectes.

  1. Double-cliquez sur le tFixedFlowInput pour ouvrir sa vue Basic settings dans l'onglet Component.

    Les données générées par ce composant contiennent des enregistrements en doublon.

  2. Cliquez sur le bouton Edit Schema pour ouvrir une boîte de dialogue dans laquelle vous pouvez définir le schéma d'entrée.

  3. Cliquez sur le bouton [+] et ajoutez les colonnes du schéma comme indiqué dans l'image ci-dessus. Cliquez sur OK.

  4. Dans le champ Number of rows, saisissez la valeur 1.

  5. Dans la zone Mode, sélectionnez l'option Use Inline Content.

  6. Dans la table Content, saisissez les données clients que vous souhaitez utiliser comme exemple, par exemple :

    1;Joodrow;Caolidge;01-09-1989;Est 1Vst Street 118;Nhshville
    2;Thomas;Cleveland;28-04-1994;Timberlane Drive 74;Austin
    3;Thomos;Cleveland;28-04-1994;TQimberlane Drie 74;Austin
    4;GMorge;Trand;19-02-2000;Harry S TVruman Blvd 75;Indianabolis
    5;Rutherford;Eisenhower;19-01-1986;Pacific Hwy S 33;Jackson
    6;Millard;Madison;15-11-1951;Bailard Avenue 149;Saint Paul
    7;UOyssec;WashimRton;22-05-2016;Carpinteria North 1T28;Mntpelier
    8;Herbert;Tyler;11-09-1980;Cerrillos Road 73;Raleigh
    9;HeFpert;Dyler;11-09-2035;CerrilDlos Road 73;Ralehh
    10;Herbert;Tyler;28-09-1980;Cerrillos Road 73;Raeijh
    11;CKester;Jaccson;18-11-1972;Santa Monica Road 10;Topeka
    12;John;Clinton;04-10-1959;Jean de la Fontaine 30;Salem
    13;Jown;Clinton;04-08-1959;ean dLe la Fontaine 30;Salm
    14;AbrahTm;HooveF;05-08-1979;Richmond Hill Q104;Montpelie
    15;Harry;Van Buren;19-12-1959;Santa Rosa South 92;Tallahassee
    15;Harry;Van Buren;19-12-1959;Santa Rosa South 92;Tallahassee
    16;Hyrry;VLn Bhren;19-12-1990;Santa Rosa SouRth 92;Tallahasse
    17;Harry;Van BuWen;27-12-1959;Santa Rosa South 92;Tallahasso
    18;Yarry;Dan Burem;19-11-1959;Santa Rosa South 92;Tallaaassee
    19;Lyndon;Johnson;09-08-1954;French Camp Turnpike Road 60;Jackson
    20;LyndoK;JohQson;09-08-1954;French Camp TurOnpike Road 60;Jackson
    21;Lyndon;Gohnson;25-08-1954;French Camp Turnpike Road 60;Jackon
    22;Theodore;McKinley;10-08-1971;Erringer Road 125;Tallahassee
    23;TheoLore;MsKinJey;10-08-1971;Erringer Road X125;Tallahussee
    24;TNewdore;McKBnley;25-08-1971;ErFringer Road 125;Tallahassee
    25;GeraPd;Truman;28-04-1988;Burnett RoZad 46;Helena
    26;William;Monroe;19-02-1993;N Harrison St 135;Des Moines
    27;William;Bonroe;19-01-1993;N Harrison St 135;Tes Moines
    28;Woodrow;Truman;21-08-1963;PDacific Hwy S 53;Salt Lakh City
    29;Bill;Harrison;16-12-1992;Carpinteria South 1;Oklahoma City
    30;Rill;HyrrisQn;16-12-2050;Carpinteria South 1;Oclahoma ity
    31;Bill;HorWison;16-12-1992;Carpnteria South 1;Oklahomo Cty
    32;Crover;KennedG;22-04-1963;Cerrillos Road 11;Austim
    33;Grover;Coolidge;09-03-1964;Corona Del Mar 101;Charleston
    34;Worren;Adams;24-07-1980;South Rooevelt Drive 114;Lansin
    35;WarrNn;Adams;03-07-1980;South Roosevelt Drive 14;Lansin
    36;Millard;Harrison;24-05-1991;San Simeon 53;Des Moines
    37;MillarB;HarLison;24-05-1991;San Simeon53;Des oines
    38;Eillard;HarKison;24-05-1991;SUan Simeon 53;Des Moines
    39;GimLy;Monrhe;30-01-1965;Richmod HZill 70;Junuu
    40;JimmN;MonrGe;30-08-1965;Richmond Hill 70;umeau
    41;James;Carter;22-01-1974;Castillo Drive 77;Indianapolis
    42;UlykseR;JacksoZ;23-03-1976;Grandview Drive131;Carson City
    43;IlysseB;JacRson;23-03-1976;Grandview Drive 131;Carson City
    44;Andrew;Grant;24-12-1989;Santa Monica Road 6;Montpelier
    45;Harry;Cleveland;01-03-1979;Jones Road 56;Baton Rouge
    46;HarrH;Clevuland;01-03-1979;Jones Road 6;Batom Rouge
    47;Martin;Hoovur;06-08-1976;LindberghBlvd C126;Lansong
    48;James;Polk;04-02-1980;Lawrenceville Suwanee 118;Oklahoma City
    49;Warren;Harrison;09-12-1966;San Simeon 118;Oklahoma City
    50;William;Washington;26-03-1986;Padre Boulevard 24;Olympia
    50;William;Washington;26-03-1986;Padre Boulevard 24;Olympia
    

    Les données d'exemple générées dans ce Job contiennent des enregistrements en doublon.

Calculer des doublons suspects, des doublons exacts et des lignes uniques

  1. Double-cliquez sur le composant tMatchPairing pour afficher sa vue Basic settings et définissez les propriétés du composant.

  2. Cliquez sur Sync columns pour récupérer le schéma défini dans le composant d'entrée.

    Le composant tMatchPairing utilise des colonnes en lecture seule prédéfinies, pour chaque lien de sortie, comme indiqué dans l'image ci-dessous.

    La colonne LABEL ajoutée à l'échantillon des paires suspectes vous permet de libeller les enregistrements suspects afin de les utiliser avec le composant tMatchModel, pour générer des caractéristiques depuis les paires suspectes. Pour plus d'informations, consultez tMatchModel.

  3. Pour ajouter deux lignes dans la table Blocking Key, cliquez deux fois sur le bouton [+]. Sélectionnez les colonnes que vous souhaitez utiliser en tant que clé de bloc, fName et lName dans ce Job.

    Dans ce Job, la clé de bloc est construite à partir des noms de famille et des prénoms utilisés pour générer les suffixes, eux-mêmes utilisés pour regrouper les paires d'enregistrements.

  4. Dans la zone Suffix array blocking parameters :

    • Dans le champ Min suffix length, définissez la longueur minimale du suffixe à atteindre ou à ne pas dépasser dans chaque groupe.

    • Dans le champ Max block size, définissez le nombre maximal d'enregistrements dans chaque bloc. Ceci aide à filtrer les blocs volumineux où le suffixe est trop courant.

  5. Dans le champ Folder, configurez le chemin d'accès au dossier local où vous souhaitez générer le fichier modèle de paires.

    Si vous souhaitez stocker le modèle dans un système de fichiers spécifique, par exemple S3 ou HDFS, vous devez utilisez le composant correspondant dans le Job et cocher la case Define a storage configuration component dans l'onglet Basic settings du composant.

    Ce fichier modèle est utilisé par le composant tMatchPredict sur les paires suspectes.

  6. Cliquez sur l'onglet Advanced settings et configurez les paramètres comme suit :

    • Dans le champ Filtering threshold, saisissez une valeur entre 0.2 et 0.85 pour filtrer les paires d'enregistrements suspects en se basant sur les scores calculés.

      Cette valeur permet d'exclure les paires peu similaires. Plus haute est la valeur, plus les enregistrements sont similaires.

    • laissez la case Set a random seed décochée pour générer un échantillon différent par exécution du Job.

    • Saisissez la taille des échantillons de paires suspectes que vous souhaitez générer.

Configurer les composants de sortie

  1. Double-cliquez sur le premier composant tFileOutputDelimited pour afficher sa vue Basic settings et définissez les propriétés du composant.

  2. Décochez la case Define a storage configuration component pour utiliser le système local comme votre système de fichiers cible.

  3. Dans la liste Property Type, sélectionnez Built-in et renseignez les champs suivants manuellement.

  4. Dans le champ Folder, configurez le chemin d'accès au dossier qui contiendra les données de sortie.

  5. Dans la liste Action, sélectionnez Create lorsque vous démarrez le Job pour la première fois, sinon, sélectionnez Overwrite pour remplacer le fichier à chaque exécution du Job.

  6. Conservez les valeurs par défaut pour les séparateurs de lignes et de champs.

  7. Cochez la case Merge results to single file, puis dans le champ Merge file path configurez le chemin d'accès où le fichier des paires d'enregistrements suspects sera écrit en sortie.

  8. Double-cliquez sur le second composant tFileOutputDelimited et définissez ses propriétés comme pour le premier composant.

    Par exemple, configurez le dossier pour écrire en sortie l'échantillon de données dans /tmp/tmp/pairsSample et configurez le chemin d'accès où écrire le fichier d'échantillon de paires suspectes dans /tmp/pairing/dataNeed2label.csv.

Configurer les composants de log et exécuter le Job

  1. Double-cliquez sur chaque tLogRow et définissez les propriétés des composants dans leur vue Basic settings.

  2. Appuyez sur F6 pour exécuter le Job.

    Le tMatchPairing calcule les paires d'enregistrements suspects et les échantillons de paires en se basant sur la définition de la clé de bloc, puis écrit les résultats dans les fichiers de sortie.

    Le composant ajoute une colonne en lecture seule, LABEL, pour le lien Pairs sample. Vous pouvez utiliser cette colonne pour libeller les enregistrements suspects manuellement avent de les utiliser avec le composant tMatchModel.

    Le tMatchPairing exclut les lignes uniques et les doublons exacts puis les écrit dans la console du Studio.