Choisir les métriques et définir les règles de rapprochement

Après avoir bloqué les données dans un groupe de la même taille, vous pouvez créer des règles de rapprochement et les tester avant de les utiliser dans le composant tMatchGroup.

Pour plus d'informations concernant la création d'une analyse de rapprochement, consultez Créer une analyse de rapprochement.

Rapprochement des fonctions dans le composant tMatchGroup

Le tMatchGroup permet de créer des groupes d'enregistrements de données similaires dans n'importe quelle source de données, y compris avec des données volumineuses, à l'aide d'une ou plusieurs règles de rapprochement.

Chaque groupe créé est composé d'un enregistrement maître et d'enregistrements similaires à cet enregistrement maître. Les fonctions de rapprochement utilisées pour calculer le degré de similarité entre les enregistrements similaires et l'enregistrement maître sont les suivants :

Des algorithmes phonétiques tels que Soundex ou Metaphone, qui sont utilisés pour rapprocher les noms.
La distance de Levensthein, qui calcule le nombre minimum de modifications requises pour transformer une chaîne de caractères en une autre.
La distance de Jaro, qui rapproche les entrées traitées en fonction des variations orthographiques.
La distance de Jaro-Winkler, qui est une variante de la distance de Jaro et qui accorde plus d'importance au début de la chaîne de caractères.

Pour plus d'informations concernant l'utilisation du composant tMatchGroup dans des Jobs Standard et Map/Reduce, consultez tMatchGroup.

Algorithmes Simple VSR Matcher et T-Swoosh

Lorsque vous utilisez le composant tMatchGroup, vous pouvez choisir entre deux algorithmes :

Le Simple VSR Matcher
Le T-Swoosh

Pour plus d'informations concernant les analyses de rapprochement, consultez "Créer une règle de rapprochement" sur Talend Help Center.

Quand est-ce que les enregistrements se rapprochent ?

Deux enregistrements se rapprochent lorsque les conditions suivantes sont remplies :

Lorsque vous utilisez l'algortihme T-Swoosh, le score retourné pour chaque fonction de rapprochement doit être supérieur au seuil que vous avez défini.
Le score global, score pondéré calculé d'après les différentes fonctions de rapprochement, doit être supérieur au seuil de rapprochement.

Multiples passes

En général, des schémas de partitionnement différents sont nécessaires. Cela requiert d'utiliser des composants tMatchGroup de façon séquentielle pour rapprocher les données avec différentes clés de bloc.

Pour un exemple de rapprochement de données via de multiples passes, consultez Rapprochement de données clients via de multiples passes.

Utilisation du composant tRecordMatching

Le tRecordMatching effectue une jointure entre les colonnes comparées du flux principal et les colonnes de référence du flux Lookup. En fonction de la stratégie de rapprochement que vous avez définie, le tRecordMatching écrit en sortie les données de rapprochement, les éventuelles données de rapprochement et les données rejetées. Au moment de définir votre stratégie de rapprochement, les scores de rapprochement définis par l'utilisateur ou l'utilisatrice sont cruciaux pour déterminer le niveau de rapprochement des données qui vous intéressent.

Pour plus d'informations concernant le composant tRecordMatching , consultez tRecordMatching.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici