Configuration d'une règle de rapprochement - 6.1

Talend MDM Platform Studio Guide utilisateur

EnrichVersion
6.1
EnrichProdName
Talend MDM Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Dans l'éditeur Match Rule Editor, vous pouvez définir les différentes caractéristiques de votre règle de rapprochement.

Dans la section Match Definition Metadata, la plupart des champs sont automatiquement alimentés lorsque vous créez une règle de rapprochement. Modifiez les métadonnées, si nécessaire, puis configurez le champ Status en sélectionnant development, testing ou production dans la liste déroulante.

  1. Dans la zone Record linkage algorithm, sélectionnez T-Swoosh. L'algorithme Simple VSR Matcher s'utilise uniquement avec qualité de données Talend.

  2. Dans la zone Match and Survivor, définissez les critères à utiliser lors du rapprochement des enregistrements de données. Cliquez sur le bouton [+] pour ajouter une nouvelle règle et configurez les critères suivants.

    • Match Key Name : saisissez un nom pour la clé de rapprochement.

    • Matching Function : sélectionnez dans la liste le type de rapprochement à effectuer. Sélectionnez Custom si vous souhaitez utiliser un algorithme de rapprochement externe personnalisé.

    • Custom Matcher : cet élément est utilisé uniquement avec la fonction de rapprochement Custom. Parcourez votre système et sélectionnez le fichier .jar de l'algorithme personnalisé.

    • Threshold : spécifiez le score de correspondance (entre 0 et 1) au-dessus duquel deux valeurs sont considérées comme correspondantes.

    • Confidence Weight : configurez un poids numérique (entre 1 et 10) sur la colonne à utiliser comme clé de rapprochement. Cette valeur est utilisée pour donner plus ou moins d'importance à certaines colonnes lors du rapprochement.

    • Handle Null : spécifiez comment traiter les enregistrements de données contenant des valeurs nulles.

      • nullMatchNull : si les deux enregistrements contiennent des valeurs nulles, ils sont considérés comme correspondance.

      • nullMatch None : si un enregistrement contient une valeur nulle, les enregistrements ne sont pas considérés comme une correspondance.

      • nullMatch All : si un enregistrement contient une valeur nulle, les enregistrements sont considérés comme une correspondance.

    • Survivorship Function : sélectionnez dans la liste la manière dont vont fusionner deux enregistrements similaires.

      • Concatenate : ajouter le contenu du premier enregistrement et le contenu du second. Par exemple, Bill et William sont fusionnés en BillWilliam. Dans le champ Parameter, vous pouvez spécifier un séparateur à utiliser pour séparer les valeurs.

      • Prefer True (for booleans) : toujours configurer les booléens à True dans l'enregistrement fusionné, sauf si tous les booléens des enregistrements source sont False.

      • Prefer False (for booleans) : toujours configurer les booléens à False dans l'enregistrement fusionné, sauf si tous les booléens des enregistrements source sont True.

      • Most common : valider la valeur du champ la plus fréquente dans chaque groupe de doublons.

      • Most recent or Most ancient : Most recent permet de valider la valeur de date la plus récente et Most ancient permet de valider la date la plus ancienne dans chaque groupe de doublons. La colonne de référence doit être de type Date.

      • Longest or Shortest : Longest valide la valeur la plus longue du champ et Shortest valide la valeur la plus courte dans chaque groupe de doublons.

      • Largest or Smallest : Largest valide la plus grande valeur numérique et Smallest valide la plus petite valeur dans un groupe de doublons.

        Avertissement

        Assurez-vous de sélectionner Largest ou Smallest comme fonction de consolidation lorsque la clé de rapprochement est de type Numeric.

      • Most trusted source : prendre les données provenant de la source définie comme la plus fiable. La source de données la plus fiable est configurée dans le champ Parameter.

    • Parameter : pour la fonction de consolidation Most trusted source, cet élément et utilisé pour configurer le nom de la source de données à utiliser comme base de l'enregistrement maître. Pour la fonction de consolidation Concatenate, cet élément est utilisé pour spécifier un séparateur à utiliser pour concaténer les données.

  3. Dans le champ Match threshold, saisissez le seuil de probabilité de correspondance.

    Deux enregistrements correspondent lorsque la valeur du seuil est supérieure à cette valeur.

    Dans le champ Confident match threshold, configurez une valeur numérique comprise entre la valeur du champ Match threshold et 1.

  4. Dans la zone Default Survivorship Rules, définissez comment consolider les correspondances pour certains types de données : Boolean, Data, Number et String. Si vous ne spécifiez pas le comportement des types de données, le comportement par défaut est appliqué.

    • Cliquez sur le bouton [+] pour ajouter une nouvelle ligne pour chaque type de données.

    • Dans la colonne Data Type, sélectionnez dans la liste le type de données correspondant.

    • Dans la colonne Survivorship Function, sélectionnez dans la liste comment deux enregistrements similaires sont fusionnés. Notez que les choix judicieux varient selon le type de données.

      Avertissement

      Assurez-vous de sélectionner Largest ou Smallest comme fonction de consolidation lorsque la clé de rapprochement est de type Numeric.

    • Parameter : pour la fonction de consolidation Most trusted source, cet élément et utilisé pour configurer le nom de la source de données à utiliser comme base de l'enregistrement maître. Pour la fonction de consolidation Concatenate, cet élément est utilisé pour spécifier un séparateur à utiliser pour concaténer les données.

  5. Sauvegardez vos modifications.