Rapprochement sur Spark - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

À l'aide du Studio Talend, vous pouvez mettre en correspondance un grand volume de données, via l'apprentissage automatique dans Spark. Cette fonctionnalité vous permet de rapprocher un grand nombre d'enregistrements, via une intervention humaine minimale.

L'apprentissage automatique avec Spark comprend généralement deux phases: la première phase calcule un modèle (apprend à la machine) en se basant sur l'historique des données et les heuristiques mathématiques. La seconde phase applique le modèle sur de nouvelles données. Dans le Studio, la première phase est implémentée par deux Jobs, un comprenant un composant tMatchPairing et un comprenant un tMatchModel. La seconde phase est implémentée par un troisième Job contenant un tMatchPredict.

Deux workflows sont possibles lors du rapprochement dans Spark avec le Studio.

Dans le premier workflow, le tMatchPairing :

  • calcule des paires d'enregistrements suspects en se basant sur la définition d'une clé de bloc,

  • crée un échantillon d'enregistrements suspects représentatif du jeu de données,

  • sépare les enregistrements uniques des enregistrements correspondant exactement,

  • génère un modèle de paires à utiliser avec le tMatchPredict.

Vous pouvez manuellement libeller les enregistrements suspects de l'échantillon avant de les utiliser avec le tMatchModel dans le second Job, où le tMatchModel :

  • calcule les similarités entre les enregistrements dans chaque paire suspecte,

  • apprend un modèle de classification en se basant sur l'algorithme Random Forest.

Le tMatchPredict libelle les enregistrements suspects automatiquement et groupe les enregistrements suspects correspondant au(x) libellé(s) configuré(s) dans les propriétés du composant.

Dans le second workflow, le tMatchPredict utilise directement sur les nouvelles données le modèle de paires généré par le tMatchPairing et le modèle de rapprochement généré par le tMatchModel, puis :

  • libelle automatiquement les enregistrements suspects,

  • groupe les enregistrements suspects correspondant au(x) libellé(s) configuré(s) dans les propriétés du composant,

  • sépare les doublons exacts des enregistrements uniques.