Définir une clé de bloc pour l'analyse de rapprochement - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-03-06
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Pourquoi et quand exécuter cette tâche

Définir une clé de bloc n'est pas obligatoire mais recommandé. Utiliser une clé de bloc permet de partitionner les données en blocs et de réduire le nombre d'enregistrements à examiner, puisque les comparaisons sont restreintes aux paires d'enregistrements au sein de chaque bloc. Utiliser des clés de bloc peut être très utile lors du traitement d'un ensemble de Big Data.

Procédure

  1. Dans l'éditeur de règles et dans la zone Generation of Blocking Key, cliquez sur le bouton [+] pour ajouter une ligne à la table.
  2. Configurez les paramètres de la clé de bloc comme suit :
    • Blocking Key Name : saisissez un nom pour la colonne que vous souhaitez utiliser afin de réduire le nombre de paires d'enregistrements à comparer.

    • Pre-algorithm : sélectionnez dans la liste déroulante un algorithme et configurez sa valeur où cela est nécessaire.

      L'algorithme est utilisé pour nettoyer ou standardiser les données avant de les traiter avec l'algorithme de rapprochement et ainsi améliorer les résultats du rapprochement de données. L'algorithme est utilisé pour nettoyer ou standardiser les données avant de les traiter avec l'algorithme de rapprochement et ainsi améliorer les résultats du rapprochement de données.

    • Algorithm : sélectionnez dans la liste déroulante l'algorithme de rapprochement à utiliser et configurez sa valeur, où cela est nécessaire.

    • Pre-algorithm : sélectionnez dans la liste déroulante un algorithme et configurez sa valeur où cela est nécessaire.

      L'algorithme est utilisé pour nettoyer ou standardiser les données après leur traitement avec l'algorithme de rapprochement et améliorer les résultats du rapprochement de données. L'algorithme est utilisé pour nettoyer ou standardiser les données après leur traitement avec l'algorithme de rapprochement et améliorer les résultats du rapprochement de données.

  3. Si nécessaire, répétez les étapes pour ajouter autant de clés de bloc que nécessaire.
    Lorsque vous importez une règle avec de nombreuses clés de bloc dans l'éditeur d'analyse de rapprochement, seule une clé de bloc sera générée et affichée dans la colonne BLOCK_KEY de la table Data.
    Pour plus d'informations concernant les paramètres de clé de bloc, consultez la documentation du tGenKey.