Configurer les composants - 7.0

Data matching

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le tRecordMatching afin d'afficher sa vue Component et définir ses propriétés.
  2. Cliquez sur le bouton Edit schema afin d'ouvrir une boîte de dialogue. Vous pouvez définir les données que vous souhaitez passer aux composants de sortie.
    Dans cet exemple, l'objectif est de passer au composant tRecordMatching les colonnes name et email du premier composant tMysqlInput, ainsi que les colonnes ref_name et ref_ email du second composant tMysqlInput.
    Les colonnes MATCHING_DISTANCE et MATCHING_WEIGHT du schéma de sortie sont définies par défaut.
    La valeur de la colonne MATCHING_WEIGHT est toujours comprise entre 0 et 1. C'est une distance globale entre les ensembles de colonnes (définis pour correspondre par les colonnes).
    La colonne MATCHING_DISTANCE affichera une distance pour chaque colonne sur laquelle a été utilisé un algorithme. Les résultats seront séparés pas une barre verticale.
    Cliquez sur OK afin de fermer la boîte de dialogue et procéder à l'étape suivante.
  3. Dans le tableau Key Definition de la vue Basic settings du composant tRecordMatching, cliquez sur le bouton [+] afin d'ajouter deux colonnes à la liste.
  4. Sélectionnez les colonnes d'entrée et de sortie sur lesquelles vous voulez effectuer le rapprochement flou, à partir des colonnes Input key attribute et Lookup key attribute respectivement.
    Dans cet exemple, sélectionnez les colonnes name et email comme attributs d'entrée, et les colonnes ref-name et ref_email comme attributs de référence.
    Remarque : Lorsque vous sélectionnez une colonne de dates sur laquelle appliquer un algorithme ou un algorithme de mise en correspondance, vous pouvez choisir ce que vous souhaitez comparer dans le format de date.

    Par exemple, si vous souhaitez comparer uniquement l'année, attribuez le type Date à la colonne concernée dans le schéma du composant puis saisissez "yyyy" dans le champ Date Pattern. Le composant convertit le format de date en une chaîne de caractères, selon le modèle défini dans le schéma, avant de comparer les chaînes de caractères.

  5. Cliquez sur la colonne Matching type et sélectionnez q-gram dans la liste, la méthode devant être utilisée sur la première colonne, afin de vérifier les données d'entrée, par rapport aux données de référence.
  6. Définissez le type de correspondance de la seconde colonne, Levenshtein dans cet exemple.
    Les valeurs minimale et maximale de correspondance possible sont définies dans la vue Advanced settings. Vous pouvez modifier les valeurs par défaut.
  7. Dans la liste Tokenized measure, choisissez de ne pas utiliser de mesure segmentée pour les algorithmes sélectionnés.
  8. Dans la colonne Weight, définissez un poids pour chacune des colonnes utilisées comme attributs de clé.
  9. Cliquez dans la cellule de la colonne Handle Null et sélectionnez l'opérateur à utiliser pour gérer les attributs nulls dans les colonnes.
  10. Si nécessaire, cliquez sur le bouton [+] sous la table Blocking Selection pour ajouter une ou plusieurs lignes. Cliquez dans la ligne et sélectionnez dans la liste la colonne à utiliser comme valeur de bloc.
    L'utilisation d'une valeur de bloc réduit le nombre de paires d'enregistrements à examiner. Les données d'entrée sont partitionnées en blocs exhaustifs, selon la valeur de bloc. Le nombre de paires à comparer est réduit, car la comparaison est restreinte aux paires d'enregistrements dans chaque bloc. Consultez Comparer les colonnes et regrouper dans le flux de sortie les enregistrements en doublon ayant la même clé fonctionnelle pour un scénario concernant les valeurs de bloc.
  11. Cliquez sur l'onglet Advanced settings pour ouvrir la vue correspondante et vous assurer de sélectionner l'algorithme Simple VSR.
  12. Double-cliquez sur le premier tLogRow afin d'afficher sa vue Component et définir ses propriétés. Dans la zone Mode, sélectionnez Table, afin d'afficher le fichier source et les résultats du tRecordMatching ensemble, pour pouvoir les comparer.
  13. Répétez l'opération pour les deux autres composants tLogRow.