La vue Configuration - Cloud - 8.0

Rapprochement de données à l'aide des outils Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07

Dans cette vue, vous pouvez modifier la configuration du tMatchGroup ou définir différentes configurations dans lesquelles exécuter le Job.

Vous pouvez, par exemple, utiliser ces différentes configurations pour effectuer des tests. Cependant, vous ne pouvez enregistrer qu'une configuration à partir de cet assistant, à savoir la configuration courante.

Dans chaque configuration, vous pouvez définir les paramètres de génération des règles de rapprochement avec les algorithmes VSR ou T-Swoosh. Les paramètres dans la vue Configuration sont légèrement différents si vous sélectionnez Simple VSR ou T-Swoosh dans l'onglet Basic settings du tMatchGroup.

Vous pouvez définir des règles de consolidation, une ou plusieurs clés de bloc et plusieurs conditions utilisant différentes règles de rapprochement. Vous pouvez également définir différents intervalles de correspondance pour chaque règle. Les résultats du rapprochement de plusieurs conditions listent les enregistrements de données qui répondent à au moins une des règles définies. Lorsqu'une configuration a plusieurs conditions, le Job effectue une opération de rapprochement de type OR. Il évalue les enregistrements de données par rapport à la première règle et les enregistrements qui correspondent à celle-ci ne sont pas évalués par rapport aux autres règles.

Les paramètres requis pour modifier ou créer une règle de correspondance sont :
  • les paramètres Key definition.

  • le champ Match Threshold.

  • une clé de bloc dans la table Blocking Selection (disponible uniquement pour les règles utilisant l'algorithme VSR).

    Définir une clé de bloc n'est pas obligatoire mais recommandé, car cela permet de partitionner les données en blocs afin de réduire le nombre d'enregistrements à examiner. Pour plus d'informations concernant les clés de blocs, consultez Import de règles de rapprochement depuis le référentiel Studio Talend.

  • les paramètres Survivorship Rules for Columns (disponibles uniquement pour les règles utilisant l'algorithme T-Swoosh).

  • les paramètres Default Survivorship Rules pour les types de données (disponibles uniquement pour les règles utilisant l'algorithme T-Swoosh).

Procédure

  1. Dans l'onglet Basic settings du tMatchGroup, sélectionnez Simple VSR dans la liste Matching Algorithm.
    Il est important d'avoir le même type d'algorithme de rapprochement sélectionné dans les propriétés simples du composant et défini dans l'assistant de configuration. Sinon, le Job s'exécute avec les valeurs par défaut pour les paramètres qui ne sont pas compatibles avec les deux algorithmes.
  2. Dans l'onglet Basic settings du tMatchGroup, cliquez sur Preview pour ouvrir l'assistant de configuration.
  3. Cliquez sur le bouton [+] dans le coin supérieur droit de la vue Configuration.
    Cela crée, dans un nouvel onglet, une copie identique de la dernière configuration.
  4. Modifiez ou configurez les paramètres de la nouvelle configuration dans les tables Key definition et Blocking Selection.
  5. Selon vos besoins, vous pouvez définir plusieurs règles pour la configuration courante en procédant comme suit :
    1. Cliquez sur le bouton [+] sur la barre de Match Rule pour créer une copie identique de la dernière règle dans un nouvel onglet.
    2. Configurez les paramètres de la nouvelle règle dans la table Key definition et définissez son intervalle de correspondance.
    3. Suivez les étapes ci-dessus afin de créer autant de règles que nécessaire pour une configuration.
      Vous pouvez définir un intervalle de correspondance différent pour chaque règle.
    Lorsqu'une configuration a plusieurs conditions, le Job effectue une opération de rapprochement de type OR. Il évalue les enregistrements de données par rapport à la première règle et les enregistrements qui correspondent à celle-ci ne sont pas évalués par rapport aux autres règles.
  6. Cliquez sur le bouton Chart en haut à droite de l'assistant afin d'exécuter le Job dans la configuration courante.
    Les résultats de correspondance sont affichés dans le graphique et la table des correspondances.
    Suivez les étapes ci-dessus afin de créer autant de configurations que nécessaire dans l'assistant.
  7. Pour exécuter le Job dans une configuration spécifique, ouvrez la configuration dans l'assistant et cliquez sur le bouton Chart.
    Les résultats de correspondance sont affichés dans le graphique et la table des correspondances.
  8. En bas à droite de l'assistant, cliquez soit :
    • sur le bouton OK pour sauvegarder la configuration courante,

      Vous ne pouvez sauvegarder qu'une configuration dans l'assistant.

    • Cancel pour fermer l'assistant et garder la configuration initialement sauvegardée dans l'assistant.

Résultats

Pour un exemple de règle de rapprochement avec l'algorithme T-Swoosh, consultez Utiliser les fonctions de consolidation pour fusionner deux enregistrements et créer un enregistrement maître.