Générer le modèle de rapprochement

Procédure

Double-cliquez sur le tMatchModel pour afficher sa vue Basic settings et définir ses propriétés.
Dans la table Matching Key, cliquez sur le bouton [+] pour ajouter des lignes à la table. Sélectionnez les colonnes sur lesquelles vous souhaitez baser le calcul du rapprochement.
La colonne Original_Id est ignorée dans le calcul du modèle de rapprochement.
Cochez la case Save the model on file system et, dans le champ Folder, configurez le chemin d'accès au dossier local dans lequel vous souhaitez générer les fichiers de rapprochement.
Cochez la case Integration with Data Stewardship et configurez les paramètres de connexion au serveur de Talend Data Stewardship.
1. Dans le champ URL, saisissez l'adresse de l'application avec le suffixe /data-stewardship/, par exemple http://company-mesos0:19999/data-stewardship/.
  
  Si vous utilisez Talend Cloud Data Stewardship, utilisez l'URL du centre de données correspondant pour accéder à l'application, avec le suffixe /data-stewardship/, par exemple https://tds.us.cloud.talend.com/data-stewardship, pour le centre de données AWS US.
  
  Pour la liste des URL des centres de données disponibles, consultez URL et régions de Talend Cloud.
2. Saisissez vos informations de connexion au serveur dans les champs Username et Password.
  Pour saisir votre mot de passe, cliquez sur le bouton […] à côté du champ Password, saisissez votre mot de passe entre guillemets doubles dans la boîte de dialogue qui s'ouvre, puis cliquez sur OK.
  Si vous utilisez Talend Cloud Data Stewardship et que :
  - Si le SSO est activé, saisissez un jeton d'accès dans le champ.
  - Si le SSO n'est pas activé, saisissez un jeton d'accès ou votre mot de passe dans le champ.
3. Cliquez sur Find a campaign pour ouvrir une boîte de dialogue listant les campagnes définies dans Talend Data Stewardship, dont vous êtes le (la) propriétaire, ou sur lesquelles vous avez les droits d'accès.
4. Sélectionnez la campagne dans laquelle écrire les tâches de regroupement, Sites deduplication dans cet exemple, puis cliquez sur OK.
Cliquez sur Advanced settings et configurez les paramètres suivants :
1. Configurez le nombre maximum de jetons à utiliser dans la comparaison phonétique, dans le champ correspondant.
2. Dans le champ Random Forest hyper parameters tuning, saisissez les plages et la profondeur des arbres de décision que vous souhaitez construire.
  Ces paramètres sont importants pour la précision du modèle.
3. Laissez les autres paramètres pas défaut.
Dans le champ Batch Size, configurez le nombre de tâches que vous souhaitez avoir dans chaque commit.
Il n'y a pas de limite pour la taille des lots dans Talend Data Stewardship (version sur site). Cependant, ne dépassez pas 200 tâches par commit dans Talend Cloud Data Stewardship, sinon le Job échoue.
Appuyez sur F6 pour exécuter le Job et générer le modèle de rapprochement dans le dossier de sortie.

Résultats

Vous pouvez utiliser ce modèle avec le composant tMatchPredict afin de libeller tous les doublons calculés par le tMatchPairing.

Pour plus d'informations, consultez Libeller des paires suspectes avec des libellés assignés.

Pour plus d'informations, consultez la documentation en ligne concernant les libellés des paires suspectes sur Talend Help Center (https://help.talend.com (uniquement en anglais)).

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici