tMatchGroup

Ce composant crée des groupes d'enregistrements de données similaires dans toute source de données, même les gros volumes, à l'aide d'une ou plusieurs règles de mise en correspondance.

Le tMatchGroup compare des colonnes de flux d'entrée standards et de flux de données M/R en utilisant des méthodes de correspondance définie et regroupe les doublons rencontrés.

Différents composants tMatchGroup peuvent être utilisés en séquence pour rapprocher des données par rapport à différentes clés de blocs. Cela permet d'affiner les groupes reçus par chaque tMatchGroup tout en créant différentes partitions de données qui écraseront les blocs de données précédents et ainsi de suite.

Lors de la définition d'un groupe, le premier enregistrement traité de chaque groupe est l'enregistrement maître du groupe. Les autres enregistrements sont calculés selon leur distance par rapport aux enregistrements maître et sont distribués à l'enregistrement maître correspondant.

Pour plus de technologies supportées par Talend, consultez Composants Talend.

Selon le produit Talend que vous utilisez, ce composant peut être utilisé dans un framework de Jobs, dans plusieurs, ou dans tous les frameworks :

Standard : consultez Propriétés du tMatchGroup Standard (uniquement en anglais).

Le composant de ce framework est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform et dans Talend Data Fabric.
MapReduce : consultez Propriétés du tMatchGroup MapReduce (déprécié) (uniquement en anglais).

Le composant de ce framework est disponible dans tous les produits Talend Platform avec Big Data et dans Talend Data Fabric.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici