Calculer des paires suspectes et écrire un échantillon dans une campagne de type Grouping

Procédure

Double-cliquez sur le tMatchPairing pour afficher sa vue Basic settings et configurer ses propriétés.
Cliquez sur le bouton Sync columns afin de récupérer le schéma défini dans le composant d'entrée.
Dans la table Blocking Key, cliquez sur le bouton [+] pour ajouter une ligne. Sélectionnez la colonnes à utiliser comme clé de bloc, Site_name dans cet exemple.
La clé de bloc est construite à partir du nom du centre et est utilisée pour générer les suffixes utilisés pour grouper les paires d'enregistrements.
Dans la zone Suffix array blocking parameters :
1. Dans le champ Min suffix length, configurez la longueur minimale de suffixe à atteindre ou à laquelle vous souhaitez vous arrêter, dans chaque groupe.
2. Dans le champ Max block size, configurez le nombre maximal d'enregistrements que chaque bloc doit contenir. Cela permet de filtrer les données dans des blocs volumineux, dans lesquels le suffixe est trop fréquent.
Dans le champ Folder, configurez le chemin d'accès au dossier local dans lequel générer le fichier du modèle permettant d'appairer les données.
Si vous souhaitez stocker le modèle dans un système de fichiers spécifique, par exemple S3 ou HDFS, vous devez utiliser le composant correspondant dans le Job et cocher la case Define a storage configuration component dans les propriétés simples du composant.
Cochez la case Integration with Data Stewardship et configurez les paramètres de connexion au serveur de Talend Data Stewardship.
1. Dans le champ URL, saisissez l'adresse de l'application avec le suffixe /data-stewardship/, par exemple http://company-mesos0:19999/data-stewardship/.
  
  Si vous utilisez Talend Cloud Data Stewardship, utilisez l'URL du centre de données correspondant pour accéder à l'application, avec le suffixe /data-stewardship/, par exemple https://tds.us.cloud.talend.com/data-stewardship, pour le centre de données AWS US.
  
  Pour la liste des URL des centres de données disponibles, consultez URL et régions de Talend Cloud.
2. Saisissez vos informations d'authentification dans les champs Username et Password.
  Pour saisir votre mot de passe, cliquez sur le bouton […] à côté du champ Password, saisissez votre mot de passe entre guillemets doubles dans la boîte de dialogue qui s'ouvre, puis cliquez sur OK.
  Si vous utilisez Talend Cloud Data Stewardship et que :
  - Si le SSO est activé, saisissez un jeton d'accès dans le champ.
  - Si le SSO n'est pas activé, saisissez un jeton d'accès ou votre mot de passe dans le champ.
3. Cliquez sur Find a campaign pour ouvrir une boîte de dialogue listant les campagnes définies dans Talend Data Stewardship, dont vous êtes le (la) propriétaire, ou sur lesquelles vous avez les droits d'accès.
4. Sélectionnez la campagne Sites deduplication dans laquelle écrire les tâches de regroupement, puis cliquez sur OK.
Cliquez sur Advanced settings et configurez les paramètres suivants :
1. Dans le champ Filtering threshold, saisissez une valeur comprise entre 0.2 et 0.85 afin de filtrer les paires d'enregistrements suspects à partir des scores calculés.
  Cette valeur permet d'exclure les paires peu similaires. Plus la valeur est haute, plus les enregistrements sont similaires.
2. Laissez la case Set a random seed décochée, car vous souhaitez générer un échantillon différent à chaque exécution du Job.
3. Dans le champ Number of pairs, saisissez la taille de l'échantillon de paires suspectes que vous souhaitez générer.
4. Configuré avec Talend Data Stewardship, saisissez le nombre maximal de tâches à charger par commit dans le champ Max tasks per commit.
  Il n'y a pas de limite pour la taille des lots dans Talend Data Stewardship (version sur site). Cependant, ne dépassez pas 200 tâches par commit dans Talend Cloud Data Stewardship, sinon le Job échoue.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici