Définir une clé de bloc pour l'analyse de rapprochement - 7.1

Guide utilisateur de Talend Data Fabric Studio

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Fabric
task
Création et développement
EnrichPlatform
Studio Talend

Pourquoi et quand exécuter cette tâche

Définir une clé de bloc n'est pas obligatoire mais recommandé. Utiliser une clé de bloc permet de partitionner les données en blocs et de réduire le nombre d'enregistrements à examiner, puisque les comparaisons sont restreintes aux paires d'enregistrements au sein de chaque bloc. Utiliser des clés de bloc peut être très utile lors du traitement d'un ensemble de Big Data.

Procédure

  1. Dans l'éditeur de règles et dans la zone Generation of Blocking Key, cliquez sur le bouton [+] pour ajouter une ligne à la table.
  2. Configurez les paramètres de la clé de bloc comme suit :
    • Blocking Key Name : saisissez un nom pour la colonne que vous souhaitez utiliser afin de réduire le nombre de paires d'enregistrements à comparer.

    • Pre-algorithm : sélectionnez dans la liste déroulante un algorithme et configurez sa valeur où cela est nécessaire.

      L'algorithme est utilisé pour nettoyer ou standardiser les données avant de les traiter avec l'algorithme de rapprochement et ainsi améliorer les résultats du rapprochement de données. L'algorithme est utilisé pour nettoyer ou standardiser les données avant de les traiter avec l'algorithme de rapprochement et ainsi améliorer les résultats du rapprochement de données.

    • Algorithm : sélectionnez dans la liste déroulante l'algorithme de rapprochement à utiliser et configurez sa valeur, où cela est nécessaire.

    • Pre-algorithm : sélectionnez dans la liste déroulante un algorithme et configurez sa valeur où cela est nécessaire.

      L'algorithme est utilisé pour nettoyer ou standardiser les données après leur traitement avec l'algorithme de rapprochement et améliorer les résultats du rapprochement de données. L'algorithme est utilisé pour nettoyer ou standardiser les données après leur traitement avec l'algorithme de rapprochement et améliorer les résultats du rapprochement de données.

  3. Si nécessaire, répétez les étapes pour ajouter autant de clés de bloc que nécessaire.
    Lorsque vous importez une règle avec de nombreuses clés de bloc dans l'éditeur d'analyse de rapprochement, seule une clé de bloc sera générée et affichée dans la colonne BLOCK_KEY de la table Data.
    Pour plus d'informations concernant les paramètres de clé de bloc, consultez la documentation du tGenKey dans le Guide de référence des Composants Talend.