Rapprochement sur Spark - 7.0

Matching with machine learning

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
EnrichPlatform
Studio Talend
Talend Data Stewardship

Le rapprochement sur Spark s'applique uniquement aux solutions Talend Platform avec Big Data et Talend Data Fabric nécessitant souscription.

À l'aide du Studio Talend , vous pouvez mettre en correspondance un grand volume de données, via l'apprentissage automatique dans Spark. Cette fonctionnalité vous permet de rapprocher un grand nombre d'enregistrements, via une intervention humaine minimale.

L'apprentissage automatique avec Spark comprend généralement deux phases: la première phase calcule un modèle (apprend à la machine) en se basant sur l'historique des données et les heuristiques mathématiques. La seconde phase applique le modèle sur de nouvelles données. Dans le Studio, la première phase est implémentée par deux Jobs, un comprenant un composant tMatchPairing et un comprenant un tMatchModel. La seconde phase est implémentée par un troisième Job contenant un tMatchPredict.

Deux workflows sont possibles lors du rapprochement dans Spark avec le Studio.

Dans le premier workflow, le tMatchPairing :
  • calcule des paires d'enregistrements suspects en se basant sur la définition d'une clé de bloc,

  • crée un échantillon d'enregistrements suspects représentatif du jeu de données,

  • peut, de manière facultative, écrire cet échantillon d'enregistrements suspects dans une campagne de type Grouping définie sur le serveur de Talend Data Stewardship,

  • sépare les enregistrements uniques des enregistrements correspondant exactement,

  • génère un modèle de paires à utiliser avec le tMatchPredict.

Vous pouvez manuellement libeller les enregistrements suspects de l'échantillon en résolvant les tâches d'une campagne de type Grouping définie sur le serveur de Talend Data Stewardship, ce qui constitue la méthode recommandée, ou en modifiant les fichiers manuellement.

Vous pouvez ensuite utiliser les enregistrements suspects de l'échantillon libellés avec le tMatchModel dans le second Job, où le tMatchModel :
  • calcule les similarités entre les enregistrements dans chaque paire suspecte,

  • apprend un modèle de classification en se basant sur l'algorithme Random Forest.

Le tMatchPredict libelle les enregistrements suspects automatiquement et groupe les enregistrements suspects correspondant au(x) libellé(s) configuré(s) dans les propriétés du composant.

Dans le second workflow, le tMatchPredict utilise directement sur les nouvelles données le modèle de paires généré par le tMatchPairing et le modèle de rapprochement généré par le tMatchModel, puis :
  • libelle automatiquement les enregistrements suspects,

  • groupe les enregistrements suspects correspondant au(x) libellé(s) configuré(s) dans les propriétés du composant,

  • sépare les doublons exacts des enregistrements uniques.