Assistant de configuration dans des Jobs Map/Reduce

Data matching

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Real-Time Big Data Platform
Talend MDM Platform
Talend Data Fabric
Talend Data Services Platform
Talend Big Data Platform
Talend Data Management Platform
task
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
EnrichPlatform
Studio Talend
Avertissement :

Les information contenues dans cette section s'adressent aux utilisateurs ayant souscrit à l'une des solutions Big Data de Talend et ne sont pas applicables aux utilisateurs de Talend Open Studio for Big Data.

Dans un Job Map/Reduce Talend , le tMatchGroup et le Job Map/Reduce entier l'utilisant génèrent nativement du code Map/Reduce. Cette section présente les paramètres spécifiques, dans l'assistant de configuration du tMatchGroup, lorsqu'il est utilisé dans cette situation. Pour plus d'informations concernant les Jobs Map/Reduce Talend , consultez le Guide de prise en main de Talend Open Studio for Big Data .

Vous ne pouvez ouvrir l'assistant de configuration avant de connecter un composant d'entrée au tMatchGroup.

Dans l'assistant de configuration du tMatchGroup, vous pouvez :
  • définir différentes conditions à l'aide de différentes règles de rapprochement afin de grouper des données,

  • configurer différents intervalles de correspondance pour chaque règle,

  • importer les règles de rapprochement créées et testées dans le studio et stockées dans le Repository et les utiliser dans vos Jobs de rapprochement. Vous pouvez importer uniquement des règles configurées avec l'algorithme VSR. Pour plus d'informations, consultez Import de règles de mise en correspondance depuis le référentiel du studio.

  • sélectionner une clé de bloc pour partitionner les données.

Les résultats de correspondance des différentes conditions listent les enregistrements de données répondant aux règles définies.

Pour créer des règles de rapprochement dans l'assistant de configuration, procédez comme suit :

  1. Cliquez sur le bouton [+] dans la barre des règles de correspondance.
  2. Configurez les paramètres de la nouvelle règle dans la table Key definition et définissez son intervalle de correspondance.
  3. Répétez les étapes ci-dessus pour créer les règles de rapprochement selon vos besoins. Vous pouvez définir un intervalle de correspondance différent pour chaque règle.
    Lorsque vous définissez différentes règles, le Job effectue une opération de correspondance OR. Cela permet d'évaluer des enregistrements de données par rapport à la première règle. Les enregistrements qui correspondent ne sont pas évalués par rapport à la seconde règle.
  4. Dans la table Blocking Selection, sélectionnez la (les) colonne(s) du flux d'entrée que vous souhaitez utiliser comme clé(s) de bloc.
    Définir une clé de bloc n'est pas obligatoire mais très utile lors du traitement d'ensemble de Big Data volumineux. Une clé de bloc partitionne des données en blocs et réduit le nombre d'enregistrements à examiner Cette clé provient d'un composant tGenKey (et est appelée T_GEN_KEY) ou directement du schéma d'entrée.
  5. Dans le coin inférieur droit de l'assistant, vous pouvez cliquer sur :
    • OK pour sauvegarder la configuration actuelle.

    • Cancel pour fermer l'assistant et garder la configuration initialement sauvegardée dans l'assistant.