Calculer des paires suspectes et écrire un échantillon dans une campagne de type Grouping - Cloud - 8.0

Rapprochement de données à l'aide des outils Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07

Procédure

  1. Double-cliquez sur le tMatchPairing pour afficher sa vue Basic settings et configurer ses propriétés.
  2. Cliquez sur le bouton Sync columns afin de récupérer le schéma défini dans le composant d'entrée.
  3. Dans la table Blocking Key, cliquez sur le bouton [+] pour ajouter une ligne. Sélectionnez la colonnes à utiliser comme clé de bloc, Site_name dans cet exemple.
    La clé de bloc est construite à partir du nom du centre et est utilisée pour générer les suffixes utilisés pour grouper les paires d'enregistrements.
  4. Dans la zone Suffix array blocking parameters :
    1. Dans le champ Min suffix length, configurez la longueur minimale de suffixe à atteindre ou à laquelle vous souhaitez vous arrêter, dans chaque groupe.
    2. Dans le champ Max block size, configurez le nombre maximal d'enregistrements que chaque bloc doit contenir. Cela permet de filtrer les données dans des blocs volumineux, dans lesquels le suffixe est trop fréquent.
  5. Dans le champ Folder, configurez le chemin d'accès au dossier local dans lequel générer le fichier du modèle permettant d'appairer les données.
    Si vous souhaitez stocker le modèle dans un système de fichiers spécifique, par exemple S3 ou HDFS, vous devez utiliser le composant correspondant dans le Job et cocher la case Define a storage configuration component dans les propriétés simples du composant.
  6. Cochez la case Integration with Data Stewardship et configurez les paramètres de connexion au serveur de Talend Data Stewardship.
    1. Dans le champ URL, saisissez l'adresse de l'application avec le suffixe /data-stewardship/, par exemple http://company-mesos0:19999/data-stewardship/.

      Si vous utilisez Talend Cloud Data Stewardship, utilisez l'URL du centre de données correspondant pour accéder à l'application, avec le suffixe /data-stewardship/, par exemple https://tds.us.cloud.talend.com/data-stewardship, pour le centre de données AWS US.

      Pour la liste des URL des centres de données disponibles, consultez URL et régions de Talend Cloud.

    2. Saisissez vos informations d'authentification dans les champs Username et Password.
      Pour saisir votre mot de passe, cliquez sur le bouton […] à côté du champ Password, saisissez votre mot de passe entre guillemets doubles dans la boîte de dialogue qui s'ouvre, puis cliquez sur OK.
      Si vous utilisez Talend Cloud Data Stewardship et que :
      • Si le SSO est activé, saisissez un jeton d'accès dans le champ.
      • Si le SSO n'est pas activé, saisissez un jeton d'accès ou votre mot de passe dans le champ.
    3. Cliquez sur Find a campaign pour ouvrir une boîte de dialogue listant les campagnes définies dans Talend Data Stewardship, dont vous êtes le (la) propriétaire, ou sur lesquelles vous avez les droits d'accès.
    4. Sélectionnez la campagne Sites deduplication dans laquelle écrire les tâches de regroupement, puis cliquez sur OK.
  7. Cliquez sur Advanced settings et configurez les paramètres suivants :
    1. Dans le champ Filtering threshold, saisissez une valeur comprise entre 0.2 et 0.85 afin de filtrer les paires d'enregistrements suspects à partir des scores calculés.
      Cette valeur permet d'exclure les paires peu similaires. Plus la valeur est haute, plus les enregistrements sont similaires.
    2. Laissez la case Set a random seed décochée, car vous souhaitez générer un échantillon différent à chaque exécution du Job.
    3. Dans le champ Number of pairs, saisissez la taille de l'échantillon de paires suspectes que vous souhaitez générer.
    4. Configuré avec Talend Data Stewardship, saisissez le nombre maximal de tâches à charger par commit dans le champ Max tasks per commit.
      Il n'y a pas de limite pour la taille des lots dans Talend Data Stewardship (version sur site). Cependant, ne dépassez pas 200 tâches par commit dans Talend Cloud Data Stewardship, sinon le Job échoue.