Assistant de configuration dans des Jobs Map/Reduce - 7.1

Data matching

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
EnrichPlatform
Studio Talend

Les résultats du rapprochement de plusieurs conditions listent les enregistrements de données qui répondent à au moins une des règles définies.

Vous ne pouvez ouvrir l'assistant de configuration avant de relier un composant d'entrée au tMatchGroup.

Dans l'assistant de configuration du tMatchGroup, vous pouvez :
  • définir différentes conditions à l'aide de différentes règles de rapprochement afin de grouper des données,

  • configurer différents intervalles de correspondance pour chaque règle,

  • importer les règles de rapprochement créées et testées dans le Studio et stockées dans le Repository et les utiliser dans vos Jobs de rapprochement. Vous pouvez importer uniquement des règles configurées avec l'algorithme VSR. Pour plus d'informations, consultez Import de règles de mise en correspondance depuis le référentiel du Studio.

  • sélectionner une clé de bloc pour partitionner les données.

Procédure

  1. Cliquez sur le bouton [+] dans la barre des règles de rapprochement.
  2. Configurez les paramètres de la nouvelle règle dans la table Key definition et définissez son intervalle de rapprochement.
  3. Répétez les étapes ci-dessus pour créer les règles de rapprochement selon vos besoins. Vous pouvez définir un intervalle de correspondance différent pour chaque règle.
    Lorsque vous définissez différentes règles, le Job effectue une opération de correspondance OR. Il évalue les enregistrements de données par rapport à la première règle et les enregistrements qui correspondent à celle-ci ne sont pas évalués par rapport à la deuxième règle.
  4. Dans la table Blocking Selection, sélectionnez les colonnes du flux d'entrée que vous souhaitez utiliser comme clé de bloc.
    Définir une clé de bloc n'est pas obligatoire mais très utile lors du traitement d'ensemble de Big Data volumineux. Une clé de bloc partitionne des données en blocs et réduit le nombre d'enregistrements à examiner. Cette clé provient d'un composant tGenKey (et est appelée T_GEN_KEY) ou directement du schéma d'entrée.
  5. En bas à droite de l'assistant, cliquez soit :
    • OK pour sauvegarder la configuration actuelle.

    • Cancel pour fermer l'assistant et garder la configuration initialement sauvegardée dans l'assistant.