Accéder au contenu principal Passer au contenu complémentaire

Calculer des doublons suspects, des doublons exacts et des lignes uniques

Procédure

  1. Double-cliquez sur le tMatchPairing pour afficher sa vue Basic settings et configurer ses propriétés.
  2. Cliquez sur le bouton Sync columns afin de récupérer le schéma défini dans le composant d'entrée.
  3. Dans la table Blocking Key, cliquez sur le bouton [+] pour ajouter une ligne. Sélectionnez la colonnes à utiliser comme clé de bloc, Site_name dans cet exemple.
    La clé de bloc est construite à partir du nom du centre et est utilisée pour générer les suffixes utilisés pour grouper les paires d'enregistrements.
  4. Dans la zone Suffix array blocking parameters :
    1. Dans le champ Min suffix length, configurez la longueur minimale de suffixe à atteindre ou à laquelle vous souhaitez vous arrêter, dans chaque groupe.
    2. Dans le champ Max block size, configurez le nombre maximal d'enregistrements que chaque bloc doit contenir. Cela permet de filtrer les données dans des blocs volumineux, dans lesquels le suffixe est trop fréquent.
  5. Dans le champ Folder, configurez le chemin d'accès au dossier local dans lequel générer le fichier du modèle permettant d'appairer les données.
    Si vous souhaitez stocker le modèle dans un système de fichiers spécifique, par exemple S3 ou HDFS, vous devez utiliser le composant correspondant dans le Job et cocher la case Define a storage configuration component dans les propriétés simples du composant.
  6. Cliquez sur Advanced settings et configurez les paramètres suivants :
    1. Dans le champ Filtering threshold, saisissez une valeur comprise entre 0.2 et 0.85 afin de filtrer les paires d'enregistrements suspects à partir des scores calculés.
      Cette valeur permet d'exclure les paires peu similaires. Plus la valeur est haute, plus les enregistrements sont similaires.
    2. Laissez la case Set a random seed décochée, car vous souhaitez générer un échantillon différent à chaque exécution du Job.
    3. Dans le champ Number of pairs, saisissez la taille de l'échantillon de paires suspectes que vous souhaitez générer.
    4. Configuré avec Talend Data Stewardship, saisissez le nombre maximal de tâches à charger par commit dans le champ Max tasks per commit.
      Il n'y a pas de limite pour la taille des lots dans Talend Data Stewardship (version sur site). Cependant, ne dépassez pas 200 tâches par commit dans Talend Cloud Data Stewardship, sinon le Job échoue.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !