Le tMatchPredict - 7.0

Matching with machine learning

EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
Talend Data Stewardship
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique

Ce composant libelle automatiquement des enregistrements suspects correspondant au(x) libellé(s) configurés dans les propriétés du composant.

Le tMatchPredict utilise des modèles de paires et de rapprochement généré par les composants tMatchPairing et tMatchModel pour libeller automatiquement des enregistrements suspects.

Si les données d'entrée n'ont pas été précédemment appairées, vous pouvez les définir comme étant "unpaired" (non appariées) et définir le chemin d'accès vers le modèle permettant d'apparier les données, afin de séparer les doublons exacts des enregistrements uniques.

Le tMatchPredict peut également écrire en sortie des enregistrements uniques, des doublons exacts et des doublons suspects d'un nouveau jeu de données.

Ce composant s'exécute uniquement avec les distributions de Spark 1.6+ et 2.0 :

  • Spark 1.6 : CDH5.7, CDH5.8, HDP2.4.0, HDP2.5.0, MapR5.2.0, EMR4.5.0, EMR4.6.0.

  • Spark 2.0 : EMR5.0.0.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.