Créer une clé de rapprochement - 7.1

Guide utilisateur de Talend Data Services Platform Studio

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Services Platform
task
Création et développement
EnrichPlatform
Studio Talend

Procédure

  1. Dans la zone Record linkage algorithm, sélectionnez T-Swoosh.
  2. Dans la zone Match and Survivor, définissez les critères à utiliser lors du rapprochement des enregistrements de données. Cliquez sur le bouton [+] pour ajouter une nouvelle règle et configurez les critères suivants :
    • Match Key Name : saisissez le nom de votre choix pour la clé de rapprochement.

    • Matching Function : sélectionne dans la liste le type de rapprochement à effectuer. Sélectionnez Custom si vous souhaitez utiliser un algorithme externe personnalisé.

    • Customer Matcher : cet élément est utilisable uniquement avec la fonction de consolidation Custom. Parcourez votre système et sélectionnez le fichier Jar de l'algorithme personnalisé.

    • Threshold : spécifie le score de correspondance (entre 0 et 1) au-dessus duquel deux valeurs sont considérées comme correspondantes.

    • Confidence Weight : configure un poids numérique (entre 1 et 10) sur la colonne que vous souhaitez utiliser comme clé de rapprochement. Cette valeur est utilisée pour donner une plus grande importance ou une importance moindre à certaines colonnes lors de l'opération de rapprochement.

    • Handle Null : spécifie comment traiter les enregistrements de données contenant des valeurs nulles.
      • nullMatchNull : si les deux enregistrements contiennent des valeurs nulles, ils sont considérés comme correspondance.

      • nullMatch None : si un enregistrement contient une valeur nulle, les enregistrements ne sont pas considérés comme une correspondance.

      • nullMatch All : si un enregistrement contient une valeur nulle, les enregistrements sont considérés comme une correspondance.

    • Survivorship Function : sélectionne la façon dont deux enregistremnets similaires seront fusionnées, à partir de la liste déroulante.
      • Concatenate : ajoute le contenu du premier enregistrement et le contenu du second. Par exemple, Bill et William sont fusionnés en BillWilliam. Dans le champ Parameter, vous pouvez définir le séparateur à utilisé pour séparer les valeurs.

      • Prefer False (for booleans) : configure toujours les booléens à True dans l'enregistrement fusionné, sauf si tous les booléens des enregistrements source sont False.

      • Prefer False (for booleans) : configure toujours les booléens à False dans l'enregistrement fusionné, sauf si tous les booléens des enregistrements source sont True.

      • Most common : valide la valeur de champ la plus fréquente dans chaque groupe de doublons.

      • Most recent or Most ancient : le premier valide la valeur de date la plus récente et le second valide la valeur de date la plus ancienne, dans chaque groupe de doublons. La colonne de référence correspondante doit être de type Date.

      • Longest or Shortest : le premier valide la valeur de champ la plus longue et le second valide la valeur de champ la plus courte, dans chaque groupe de doublons.

      • Largest or Smallest : le premier valide la plus grande valeur numérique plus grand numéro et le second la plus petite valeur numérique, dans chaque groupe de doublons.

        Avertissement : Assurez-vous de sélectionner Largest ou Smallest comme fonction de consolidation lorsque la clé de rapprochement est de type Numeric.
    • Parameter : pour la fonction de consolidation Most trusted source, cet élément et utilisé pour configurer le nom de la source de données à utiliser comme base de l'enregistrement maître. Pour la fonction de consolidation Concatenate, cet élément est utilisé pour spécifier un séparateur à utiliser pour concaténer les données.

  3. Dans le champ Match threshold, saisissez le seuil de probabilité.

    Deux enregistrements de données correspondent lorsque leur probabilité est supérieure à cette valeur.

    Dans le champ Confident match threshold, configurez une valeur numérique comprise entre la valeur du champ Match threshold et 1.

  4. Dans la zone Survivorship Rules For Columns, définissez comment consolider les enregistrements de données pour certaines colonnes. Cliquez sur le bouton [+] pour ajouter une nouvelle règle et configurez les critères suivants :
    • Input Column : saisit le nom de la colonne sur laquelle appliquer la règle de consolidation.

    • Survivorship Function : sélectionne la façon dont deux enregistremnets similaires seront fusionnées, à partir de la liste déroulante.

    • Parameter : pour la fonction de consolidation Most trusted source, cet élément et utilisé pour configurer le nom de la source de données à utiliser comme base de l'enregistrement maître. Pour la fonction de consolidation Concatenate, cet élément est utilisé pour spécifier un séparateur à utiliser pour concaténer les données.

    Si vous spécifiez la fonction de consolidation pour une clé de rapprochement dans la zone Match And Survivor et que vous spécifiez la fonction de consolidation pour la clé de rapprochement en tant que colonne d'entrée dans la zone Survivorship Rules For Columns, la fonction de consolidation sélectionnée dans la zone Match And Survivor est appliquée sur la colonne.

  5. Dans la zone Default Survivorship Rules, définissez comment consolider les correspondances pour certains types de données : Boolean, Date, Number et String.
    1. Cliquez sur le bouton [+] pour ajouter une nouvelle ligne pour chaque type de données.
    2. Dans la colonne Data Type, sélectionnez dans la liste le type de données correspondant.
    3. Dans la colonne Survivorship Function, sélectionnez dans la liste comment deux enregistrements similaires sont fusionnés. Notez que les choix judicieux varient selon le type de données.
      Avertissement : Assurez-vous de sélectionner Largest ou Smallest comme fonction de consolidation lorsque la clé de rapprochement est de type Numeric.
    4. Parameter : pour la fonction de consolidation Most trusted source, cet élément et utilisé pour configurer le nom de la source de données à utiliser comme base de l'enregistrement maître. Pour la fonction de consolidation Concatenate, cet élément est utilisé pour spécifier un séparateur à utiliser pour concaténer les données.

    Si vous spécifiez la fonction de consolidation pour une colonne dans la zone Survivorship Rules For Columns et que vous spécifiez la fonction de consolidation pour le type de données de la colonne, dans la zone Default Survivorship Rules, la fonction de consolidation sélectionnée dans Survivorship Rules For Columns est appliquée sur la colonne.

    Si vous ne spécifiez pas de comportement pour un ou plusieurs type(s) de données, le comportement par défaut (fonction de consolidation Most common) est appliqué, c'est-à-dire que la valeur la plus fréquente de champ dans chaque groupe de doublons est validée.

  6. Sauvegardez vos modifications.