Configurer le composant d'entrée - 7.0

Matching with machine learning

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
EnrichPlatform
Studio Talend
Talend Data Stewardship

Procédure

  1. Double-cliquez sur le tFileInputDelimited pour ouvrir sa vue Basic settings dans l'onglet Component.

    Les données d'entrée à utiliser avec le tMatchPredict sont les paires suspectes générées par tMatchPairing, comme expliqué dans Calculer des paires suspectes et écrire un échantillon dans Talend Data Stewardship et Calcul de paires suspectes et d'un échantillon de paires suspectes à partir d'un jeu de données.

  2. Cliquez sur le bouton [...] à côté de Edit schema pour ouvrir une boîte de dialogue, puis ajoutez des colonnes au schéma d'entrée : Original_Id, Source, Site_name, Address, PAIR_ID et SCORE.

    SCORE est une colonne de type Double. Les autres colonnes sont de type String.

  3. Cliquez sur le bouton [+] et ajoutez les colonnes du schéma comme indiqué dans l'image ci-dessus. Cliquez sur OK.
  4. Dans le champ Folder/File, configurez le chemin d'accès au fichier source.
  5. Configurez les séparateurs de lignes et de champs dans les champs correspondant, puis limitez l'en-tête à 1.