Définir une clé de bloc - Cloud - 7.3

Guide d'utilisation du Studio Talend

Version
Cloud
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-02-13
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Pourquoi et quand exécuter cette tâche

Définir une clé de bloc n'est pas obligatoire mais fortement conseillé. Utiliser une clé de bloc pour partitionner des données en blocs réduit le nombre d'enregistrements nécessitant d'être comparés à des paires d'enregistrements dans chaque bloc. Utiliser des colonnes de bloc est très utile lors du traitement d'un jeu de données volumineux.

Procédure

  1. Dans la section Data, cliquez sur l'onglet Select Blocking Key.
  2. Cliquez sur le nom des colonnes que vous souhaitez utiliser pour partitionner les données traitées en blocs.
    Des clés de bloc ayant exactement le même nom que la colonne sélectionnée sont listées dans la table Blocking Key.
    Cependant, une seule clé de bloc est générée et listée dans la colonne BLOCK_KEY de la table Data.
    Par exemple, si vous utilisez un algorithme sur les colonnes country et lname afin de traiter les enregistrements ayant le même caractère de départ, les enregistrements de données ayant la même première lettre dans le nom du pays ou dans le nom de famille sont groupés dans le même bloc. La comparaison est restreinte à chaque enregistrement dans chaque bloc.
    Pour supprimer une colonne de la table Blocking key, cliquez-droit dessus et sélectionnez Delete ou cliquez sur son nom dans la table Data.
  3. Sélectionnez un algorithme pour la clé de bloc et configurez les autres paramètres dans la table Blocking Key selon vos besoins.
    Dans cet exemple, seule une clé de bloc est utilisée. Le premier caractère de chaque mot dans la colonne country est récupéré et listé dans la colonne BLOCK_KEY.
  4. Cliquez sur Chart pour calculer la clé générée, grouper les enregistrements d'exemple dans la table Data et afficher les résultats dans un diagramme.
    Ce diagramme vous permet de visualiser les statistiques concernant le nombre de blocs et d'adapter les paramètres de bloc selon les résultats que vous souhaitez obtenir.