Bloc - 7.1

Data matching

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
EnrichPlatform
Studio Talend
Afin d'éviter de comparer un à un tous les enregistrements en entrée, vous pouvez définir une ou plusieurs clés de bloc afin de partitionner le jeu de données en entrée, en jeux de données plus petits, appelés blocs.

Dans chaque bloc, les clés de bloc doivent avoir la même valeur. Ensuite, chacun des blocs est traité de manière indépendante.

L'utilisation de clés de bloc réduit le temps nécessaire aux algorithmes Simple VSR Matcher et T-Swoosh pour traiter les données. Par exemple, si 100 000 enregistrements sont partitionnés en 100 blocs de 1 000 enregistrements, le nombre de comparaisons est réduit d'un facteur 100. Ceci signifie que l'algorithme ira environ 100 fois plus vite.

Il est recommandé d'utiliser le tGenKey pour générer des clés de bloc et visualiser les statistiques concernant le nombre de blocs. Dans un Job, effectuez un clic droit sur le composant tGenKey et sélectionnez View Key Profile dans le menu contextuel afin de visualiser la distribution du nombre de blocs selon leur taille.

Dans cet exemple, la taille moyenne d'un bloc est d'environ 40.

Pour les 13 blocs contenant 38 lignes, il y aura 18 772 comparaisons au sein de ces 13 blocs (13 × 382). Si les enregistrements sont comparés sur quatre colonnes, il y aura 75 088 comparaisons de chaînes de caractères dans ces 13 blocs (18 772 × 4).