La vue Configuration - 6.4

Data matching

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
EnrichPlatform
Studio Talend

Dans cette vue, vous pouvez éditer la configuration du tMatchGroup ou définir différentes configurations dans lesquelles exécuter le Job.

Vous pouvez, par exemple, utiliser ces différentes configurations pour effectuer des tests. Cependant, vous ne pouvez enregistrer qu'une configuration à partir de cet assistant, à savoir la configuration courante.

Dans chaque configuration, vous pouvez définir les paramètres de génération des règles de rapprochement avec les algorithmes VSR ou T-Swoosh. Les paramètres dans la vue Configuration sont légèrement différents si vous sélectionnez Simple VSR ou T-Swoosh dans l'onglet Basic settings du tMatchGroup.

Vous pouvez définir des règles de consolidation, une ou plusieurs clés de bloc et plusieurs conditions utilisant différentes règles de mise en correspondance. Vous pouvez également définir différents intervalles de correspondance pour chaque règle. Les résultats de la mise en correspondance de plusieurs conditions listent les enregistrements de données qui répondent à au moins une des règles définies. Lorsqu'une configuration a plusieurs conditions, le Job effectue une opération de mise en correspondance de type OR. Il évalue les enregistrements de données par rapport à la première règle et les enregistrements qui correspondent à celle-ci ne sont pas évalués par rapport aux autres règles.

Les paramètres requis pour modifier ou créer une règle de correspondance sont :
  • les paramètres Key definition.

  • le champ Match Threshold.

  • une clé de bloc dans la table Blocking Selection (disponible uniquement pour les règles utilisant l'algorithme VSR).

    Définir une clé de bloc n'est pas obligatoire mais recommandé, car cela permet de partitionner les données en blocs afin de réduire le nombre d'enregistrements à examiner. Pour plus d'informations concernant les clés de blocs, consultez Import de règles de mise en correspondance depuis le référentiel du studio.

  • les paramètres Default Survivorship Rules (disponibles uniquement pour les règles utilisant l'algorithme T-Swoosh).

Pour créer une nouvelle configuration et de nouvelles règles de mise en correspondance utilisant l'algorithme VSR, dans l'assistant de configuration :

Procédure

  1. Dans l'onglet Basic settings du tMatchGroup, sélectionnez Simple VSR dans la liste Matching Algorithm.
    Il est important d'avoir le même type d'algorithme de rapprochement sélectionné dans les propriétés simples du composant et défini dans l'assistant de configuration. Sinon, le Job s'exécute avec les valeurs par défaut pour les paramètres qui ne sont pas compatibles avec les deux algorithmes.
  2. Dans l'onglet Basic settings du tMatchGroup, cliquez sur Preview pour ouvrir l'assistant de configuration.
  3. Cliquez sur le bouton [+] dans le coin supérieur droit de la vue Configuration.
    Cela crée, dans un nouvel onglet, une copie identique de la dernière configuration.
  4. Modifiez ou renseignez les paramètres de la nouvelle configuration dans les tables Key definition et Blocking Selection.
  5. Selon vos besoins, vous pouvez définir plusieurs règles pour la configuration courante en procédant comme suit :
    1. Cliquez sur le bouton [+] sur la barre de Match Rule pour créer une copie identique de la dernière règle dans un nouvel onglet.
    2. Saisissez les paramètres de la nouvelle règle dans les tables Key definition et définissez l'intervalle de correspondance.
    3. Suivez les étapes ci-dessus afin de créer autant de règles que nécessaire pour une configuration. Vous pouvez définir un intervalle de correspondance différent pour chaque règle.
    Lorsqu'une configuration a plusieurs conditions, le Job effectue une opération de mise en correspondance de type OR. Il évalue les enregistrements de données par rapport à la première règle et les enregistrements qui correspondent à celle-ci ne sont pas évalués par rapport aux autres règles.
  6. Cliquez sur le bouton Chart en haut à droite de l'assistant afin d'exécuter le Job dans la configuration courante.
    Les résultats de correspondance sont affichés dans le graphique et la table des correspondances.
    Suivez les étapes ci-dessus afin de créer autant de configurations que nécessaire dans l'assistant.
  7. Pour exécuter le Job dans une configuration spécifique, ouvrez la configuration dans l'assistant et cliquez sur le bouton Chart.
    Les résultats de correspondance sont affichés dans le graphique et la table des correspondances.
  8. En bas à droite de l'assistant, cliquez soit :
    • sur le bouton OK pour sauvegarder la configuration courante.

      Vous ne pouvez sauvegarder qu'une configuration dans l'assistant.

    • sur le bouton Cancel pour fermer l'assistant et garder la configuration initialement sauvegardée dans l'assistant.

    Pour un exemple de règle de rapprochement avec l'algorithme T-Swoosh, consultez Utiliser les fonctions de consolidation pour fusionner deux enregistrements et créer un enregistrement maître.