Calculer des paires suspectes et écrire un échantillon dans une campagne de type Grouping - 7.0

Matching with machine learning

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
EnrichPlatform
Studio Talend
Talend Data Stewardship

Procédure

  1. Double-cliquez sur le tMatchPairing pour afficher sa vue Basic settings et configurer ses propriétés.
  2. Cliquez sur le bouton Sync columns afin de récupérer le schéma défini dans le composant d'entrée.
  3. Dans la table Blocking Key, cliquez sur le bouton [+] pour ajouter une ligne. Sélectionnez la colonnes à utiliser comme clé de bloc, Site_name dans cet exemple.
    La clé de bloc est construite à partir du nom du centre et est utilisée pour générer les suffixes utilisés pour grouper les paires d'enregistrements.
  4. Dans la zone Suffix array blocking parameters :
    1. Dans le champ Min suffix length, configurez la longueur minimale de suffixe à atteindre ou à laquelle vous souhaitez vous arrêter, dans chaque groupe.
    2. Dans le champ Max block size, configurez le nombre maximal d'enregistrements que chaque bloc doit contenir. Cela permet de filtrer les données dans des blocs volumineux, dans lesquels le suffixe est trop fréquent.
  5. Dans le champ Folder, configurez le chemin d'accès au dossier local dans lequel générer le fichier du modèle permettant d'appairer les données.
    Si vous souhaitez stocker le modèle dans un système de fichiers spécifique, par exemple S3 ou HDFS, vous devez utiliser le composant correspondant dans le Job et cocher la case Define a storage configuration component dans les propriétés simples du composant.
  6. Cochez la case Integration with Data Stewardship et configurez les paramètres de connexion au serveur de Talend Data Stewardship.
    1. Dans le champ URL, saisissez l'adresse de l'application avec le suffixe /data-stewardship/, par exemple http://company-mesos0:19999/data-stewardship/.

      Si vous travaillez avec Talend Cloud Data Stewardship, utilisez l'une des adresses suivantes pour accéder à l'application :

      • https://tds.us.cloud.talend.com/data-stewardship pour le centre de données des États-Unis.
      • https://tds.eu.cloud.talend.com/data-stewardship pour le centre de données de l'Europe.
    2. Saisissez vos informations de connexion au serveur, dans les champs Username et Password.
      Pour saisir votre mot de passe, cliquez sur le bouton [...] à côté du champ Password, saisissez votre mot de passe entre guillemets doubles dans la boîte de dialogue qui s'ouvre, puis cliquez sur OK.
    3. Cliquez sur Find a campaign pour ouvrir une boîte de dialogue listant les campagnes définies dans Talend Data Stewardship, dont vous êtes le (la) propriétaire, ou sur lesquelles vous avez les droits d'accès.
    4. Sélectionnez la campagne dans laquelle écrire les tâches de regroupement, Matching on Spark, puis cliquez sur OK.
  7. Cliquez sur Advanced settings et configurez les paramètres suivants :
    1. Dans le champ Filtering threshold, saisissez une valeur comprise entre 0.2 et 0.85 afin de filtrer les paires d'enregistrements suspects à partir des scores calculés.
      Cette valeur permet d'exclure les paires peu similaires. Plus la valeur est haute, plus les enregistrements sont similaires.
    2. Laissez la case Set a random seed décochée, car vous souhaitez générer un échantillon différent à chaque exécution du Job.
    3. Dans le champ Number of pairs, saisissez la taille de l'échantillon de paires suspectes que vous souhaitez générer.
    4. Configuré avec Talend Data Stewardship, saisissez le nombre maximal de tâches à charger par commit dans le champ Max tasks per commit.
      Il n'y a pas de limite pour la taille des lots dans Talend Data Stewardship (version sur site). Cependant, ne dépassez pas les 200 tâches par commit dans Talend Cloud Data Stewardship, sinon le Job échoue.