Créer une clé de rapprochement - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-03-06
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Procédure

  1. Dans la zone Record linkage algorithm, sélectionnez T-Swoosh.
  2. Dans la zone Match and Survivor, définissez les critères à utiliser lors du rapprochement des enregistrements de données. Cliquez sur le bouton [+] pour ajouter une règle et configurez les critères suivants :
    • Match Key Name : saisissez le nom de votre choix pour la clé de rapprochement.

    • Matching Function : sélectionne dans la liste le type de rapprochement à effectuer. Sélectionnez Custom si vous souhaitez utiliser un algorithme externe personnalisé.

    • Customer Matcher : cet élément est utilisable uniquement avec la fonction de consolidation Custom. Parcourez votre système et sélectionnez le fichier Jar de l'algorithme personnalisé.

    • Threshold : spécifie le score de correspondance (entre 0 et 1) au-dessus duquel deux valeurs sont considérées comme correspondantes.

    • Confidence Weight : configure un poids numérique (entre 1 et 10) sur la colonne que vous souhaitez utiliser comme clé de rapprochement. Cette valeur est utilisée pour donner plus ou moins d'importance à certaines colonnes lors du rapprochement.

    • Handle Null : spécifie comment traiter les enregistrements de données contenant des valeurs nulles.
      • nullMatchNull : si les deux enregistrements contiennent des valeurs nulles, ils sont considérés comme correspondance.

      • nullMatch None : si un enregistrement contient une valeur nulle, les enregistrements ne sont pas considérés comme une correspondance.

      • nullMatch All : si un enregistrement contient une valeur nulle, les enregistrements sont considérés comme une correspondance.

    • Survivorship Function : sélectionne la façon dont deux enregistrements similaires seront fusionnées, à partir de la liste déroulante.
      • Concatenate : ajoute le contenu du premier enregistrement et le contenu du second.

        Par exemple, Bill et William sont fusionnés en BillWilliam. Dans le champ Parameter, vous pouvez définir le séparateur à utiliser pour séparer les valeurs.

      • Prefer False (for booleans) : configure toujours les booléens à True dans l'enregistrement fusionné, sauf si tous les booléens des enregistrements source sont False.

      • Prefer False (for booleans) : configure toujours les booléens à False dans l'enregistrement fusionné, sauf si tous les booléens des enregistrements source sont True.

      • Most common : valide la valeur de champ la plus fréquente dans chaque groupe de doublons.

      • Most recent or Most ancient : le premier valide la valeur de date la plus récente et le second valide la valeur de date la plus ancienne, dans chaque groupe de doublons. La colonne de référence Reference column doit être de type Date.

      • Longest or Shortest : le premier valide la valeur de champ la plus longue et le second valide la valeur de champ la plus courte, dans chaque groupe de doublons.

      • Largest or Smallest : le premier valide la plus grande valeur numérique plus grand numéro et le second la plus petite valeur numérique, dans chaque groupe de doublons.

        Avertissement : Assurez-vous de sélectionner Largest ou Smallest comme fonction de consolidation lorsque la clé de rapprochement est de type Numeric.
      • Most trusted source : prend les données provenant de la source définie comme la plus fiable. La source données la plus fiable est définie dans le champ Parameter.

    • Reference column : si vous avez défini Survivor Function sur Most recent ou Most ancient, cet élément est utilisé pour sélectionner la colonne de référence.
    • Parameter : pour la fonction de consolidation Concatenate, cet élément est utilisé pour spécifier un séparateur à utiliser pour concaténer les données.

    • Parameter : pour la fonction de consolidation Most trusted source, cet élément et utilisé pour configurer le nom de la source de données à utiliser comme base de l'enregistrement maître. Pour la fonction de consolidation Concatenate, cet élément est utilisé pour spécifier un séparateur à utiliser pour concaténer les données.

  3. Dans le champ Match threshold, saisissez le seuil de probabilité.

    Deux enregistrements de données correspondent lorsque leur probabilité est supérieure à cette valeur.

    Dans le champ Confident match threshold, configurez une valeur numérique comprise entre la valeur du champ Match threshold et 1.

  4. Dans la zone Survivorship Rules For Columns, définissez comment consolider les enregistrements de données pour certaines colonnes. Cliquez sur le bouton [+] pour ajouter une règle et configurez les critères suivants :
    • Input Column : saisit le nom de la colonne sur laquelle appliquer la règle de consolidation.

    • Survivorship Function : sélectionne la façon dont deux enregistrements similaires seront fusionnées, à partir de la liste déroulante.

    • Parameter : pour la fonction de consolidation Most trusted source, cet élément et utilisé pour configurer le nom de la source de données à utiliser comme base de l'enregistrement maître. Pour la fonction de consolidation Concatenate, cet élément est utilisé pour spécifier un séparateur à utiliser pour concaténer les données.

    Si vous spécifiez la fonction de consolidation pour une clé de rapprochement dans la zone Match And Survivor et que vous spécifiez la fonction de consolidation pour la clé de rapprochement en tant que colonne d'entrée dans la zone Survivorship Rules For Columns, la fonction de consolidation sélectionnée dans la zone Match And Survivor est appliquée sur la colonne.

  5. Dans la zone Default Survivorship Rules, définissez comment consolider les correspondances pour certains types de données : Boolean, Date, Number et String.
    1. Cliquez sur le bouton [+] pour ajouter une ligne pour chaque type de données.
    2. Dans la colonne Data Type, sélectionnez dans la liste le type de données correspondant.
    3. Dans la colonne Survivorship Function, sélectionnez dans la liste comment deux enregistrements similaires sont fusionnés. Selon le type de données, seuls certains choix peuvent être cohérents.
      Avertissement : Assurez-vous de sélectionner Largest ou Smallest comme fonction de consolidation lorsque la clé de rapprochement est de type Numeric.
    4. Parameter : pour la fonction de consolidation Most trusted source, cet élément et utilisé pour configurer le nom de la source de données à utiliser comme base de l'enregistrement maître. Pour la fonction de consolidation Concatenate, cet élément est utilisé pour spécifier un séparateur à utiliser pour concaténer les données.

    Si vous spécifiez la fonction de consolidation pour une colonne dans la zone Survivorship Rules For Columns (Règles de consolidation pour les colonnes) et que vous spécifiez la fonction de consolidation pour le type de données de la colonne, dans la zone Default Survivorship Rules (Règles de consolidation par défaut), la fonction de consolidation sélectionnée dans Survivorship Rules For Columns (Règles de consolidation pour les colonnes) est appliquée sur la colonne.

    Si vous ne spécifiez pas de comportement pour un ou plusieurs type(s) de données, le comportement par défaut (fonction de consolidation Most common) est appliqué, c'est-à-dire que la valeur la plus fréquente de champ dans chaque groupe de doublons est validée.

  6. Sauvegardez vos modifications.