Générer le modèle de rapprochement - 7.0

Matching with machine learning

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
EnrichPlatform
Studio Talend
Talend Data Stewardship

Procédure

  1. Double-cliquez sur le tMatchModel pour afficher sa vue Basic settings et définir ses propriétés.
  2. Dans la table Matching Key, cliquez sur le bouton [+] pour ajouter des lignes à la table. Sélectionnez les colonnes sur lesquelles vous souhaitez baser le calcul du rapprochement.
    La colonne Original_Id est ignorée dans le calcul du modèle de rapprochement.
  3. Cochez la case Save the model on file system et, dans le champ Folder, configurez le chemin vers le dossier local dans lequel vous souhaitez générer le fichier du modèle de rapprochement.
  4. Cochez la case Integration with Data Stewardship et configurez les paramètres de connexion au serveur de Talend Data Stewardship.
    1. Dans le champ URL, saisissez l'adresse de l'application avec le suffixe /data-stewardship/, par exemple http://company-mesos0:19999/data-stewardship/.

      Si vous travaillez avec Talend Cloud Data Stewardship, utilisez l'une des adresses suivantes pour accéder à l'application :

      • https://tds.us.cloud.talend.com/data-stewardship pour le centre de données des États-Unis.
      • https://tds.eu.cloud.talend.com/data-stewardship pour le centre de données de l'Europe.
    2. Saisissez vos informations de connexion au serveur dans les champs Username et Password.
      Pour saisir votre mot de passe, cliquez sur le bouton [...] à côté du champ Password, saisissez votre mot de passe entre guillemets doubles dans la boîte de dialogue qui s'ouvre et cliquez sur OK.
    3. Cliquez sur Find a campaign pour ouvrir une boîte de dialogue listant les campagnes définies dans Talend Data Stewardship, dont vous êtes le (la) propriétaire, ou sur lesquelles vous avez les droits d'accès.
    4. Sélectionnez la campagne dans laquelle écrire les tâches de regroupement, Sites deduplication, puis cliquez sur OK.
  5. Cliquez sur Advanced settings et configurez les paramètres suivants :
    1. Configurez le nombre maximum de jetons à utiliser dans la comparaison phonétique, dans le champ correspondant.
    2. Dans le champ Random Forest hyper parameters tuning, saisissez les plages et la profondeur des arbres de décision que vous souhaitez construire.
      Ces paramètres sont importants pour la précision du modèle.
    3. Laissez les autres paramètres pas défaut.
  6. Dans le champ Batch Size, configurez le nombre de tâches que vous souhaitez avoir dans chaque commit.
    Il n'y a pas de limite pour la taille des lots dans Talend Data Stewardship (version sur site). Cependant, ne dépassez pas 200 tâches par commit dans Talend Cloud Data Stewardship, sinon le Job échoue.
  7. Appuyez sur F6 pour exécuter le Job et générer le modèle de rapprochement dans le dossier de sortie.

Résultats

Vous pouvez utiliser ce modèle avec le composant tMatchPredict afin de libeller tous les doublons calculés par le tMatchPairing.

Pour plus d'informations, consultez Libeller des paires suspectes avec des libellés assignés.