Définir une clé de bloc - 7.0

Guide utilisateur de Talend Data Management Platform Studio

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Data Management Platform
task
Création et développement
EnrichPlatform
Studio Talend

Pourquoi et quand exécuter cette tâche

Définir une clé de bloc n'est pas obligatoire mais fortement conseillé. Utiliser une clé de bloc pour partitionner des données en blocs réduit le nombre d'enregistrements nécessitant d'être comparés à des paires d'enregistrements dans chaque bloc. Utiliser des colonnes de bloc est très utile lors du traitement d'ensembles de données volumineux.

Procédure

  1. Dans la zone Data, cliquez sur l'onglet Select Blocking Key puis sur le nom des colonnes que vous souhaitez utiliser pour partitionner les données traitées en blocs.
    Des clés de bloc ayant exactement le même nom que la colonne sélectionnée sont listées dans la table Blocking Key.
    Cependant, une seule clé de bloc est générée et listée dans la colonne BLOCK_KEY de la table Data.
    Par exemple, si vous utilisez un algorithme sur les colonnes country et lname afin de traiter les enregistrements ayant le même caractère de départ, les enregistrements de données ayant la même première lettre dans le nom du pays ou dans le nom de famille sont groupés dans le même bloc. La comparaison est restreinte à chaque enregistrement dans chaque bloc.
    Pour supprimer une colonne de la table Blocking key, cliquez-droit dessus et sélectionnez Delete ou cliquez sur son nom dans la table Data.
  2. Sélectionnez un algorithme pour la clé de bloc et configurez les autres paramètres dans la table Blocking Key selon vos besoins.
    Dans cet exemple, seule une clé de bloc est utilisée. Le premier caractère de chaque mot dans la colonne country est récupéré et listé dans la colonne BLOCK_KEY.
    Pour plus d'informations concernant les paramètres de clé de bloc, consultez la documentation du tGenKey dans le Guide de référence des Composants Talend.
  3. Cliquez sur Chart pour calculer la clé générée, grouper les enregistrements d'exemple dans la table Data et afficher les résultats dans un diagramme.
    Ce diagramme vous permet de visualiser les statistiques concernant le nombre de blocs et d'adapter les paramètres de bloc selon les résultats que vous souhaitez obtenir.