Définir la règle de rapprochement

Procédure

Dans la vue Basic settings du tMatchGroup, cliquez sur Preview pour ouvrir l'assistant de configuration et définir la clé de rapprochement et la fonction de consolidation.

Vous pouvez également utiliser l'assistant de configuration pour importer les règles de rapprochement créées et testées dans le Studio Talend, et stockées dans le référentiel, afin de les utiliser dans vos Jobs de rapprochement. Pour plus d'informations, consultez Importing match rules from the repository.

Il est important d'avoir le même type d'algorithme de rapprochement sélectionné dans les propriétés simples du composant et défini dans l'assistant de configuration. Sinon, le Job s'exécute avec les valeurs par défaut pour les paramètres qui ne sont pas compatibles avec les deux algorithmes.
Définissez la règle de rapprochement comme suit :
- Dans la table Key definition, cliquez sur le bouton [+] pour ajouter une ligne à la table. Cliquez dans la colonne Input Key Attribute et sélectionnez la colonne sur laquelle vous souhaitez effectuer l'opération de rapprochement, first_name dans ce scénario.
- Cliquez dans la colonne Matching Function et sélectionnez Soundex dans la liste. Cette méthode fait correspondre les entrées traitées à un algorithme phonétique anglais standard indexant les chaînes de caractères par son, comme lorsqu'elles sont prononcées en anglais.
- Dans la liste Tokenized measure, choisissez de ne pas utiliser de mesure segmentée pour l'algorithme sélectionné.
- Dans la colonne Threshold, saisissez 0.8 et dans la colonne Confidence Weight, saisissez 1.
- Sélectionnez Null Match None dans la colonne Handle Null afin d'obtenir des résultats de rapprochement dans lesquels les valeurs nulls ont un impact minimal.
- Sélectionnez Most common dans la colonne Survivorship Function. Cette méthode permet de valider la valeur du nom le plus fréquent dans chaque groupe de doublons.
Définissez la règle de rapprochement par défaut comme suit :
- Dans la table Default Survivorship Rules, cliquez sur le bouton [+] pour ajouter une ligne à la table. Cliquez dans la colonne Data Type et sélectionnez Number.
- Cliquez dans la colonne Survivorship Function et sélectionnez Largest (for numbers) dans la liste. Cette méthode valide la valeur numérique la plus grande au sein de chaque groupe.
Configurez le paramètre Hide groups of less than afin de décider des groupes à afficher dans le diagramme des résultats et dans la table de rapprochement. Ce paramètre vous permet de masquer des groupes de petite taille.
Cliquez sur le bouton Chart dans l'assistant pour exécuter le Job avec la configuration définie et obtenir les résultats directement dans l'assistant.

Le diagramme de rapprochement donne une vue globale des doublons dans les données analysées. La table de rapprochement indique les détails des éléments dans chaque groupe, colore les groupes selon les couleurs du diagramme de rapprochement et indique par true les enregistrements maître. L'enregistrement maître de chaque groupe est le résultat de la fusion de deux enregistrements similaires selon l'algorithme phonétique et la règle de consolidation. L'enregistrement maître est un nouvel enregistrement qui n'existe pas dans les données d'entrée.
Cliquez sur OK pour fermer l’assistant.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici