Configurer la génération de clé - 7.3

Identification

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants d'identification
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants d'identification
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants d'identification
Last publication date
2024-02-22

Procédure

  1. Double-cliquez sur le tGenKey pour afficher sa vue Basic settings et définir ses propriétés.
    Cliquez sur le bouton pour importer les clés de bloc à partir des règles de mise en correspondance créées avec l'algorithme VSR et testées dans la perspective Profiling du Studio Talend et les utiliser dans votre Job. Sinon, définissez les paramètres des clés de bloc comme décrit dans les étapes ci-dessous.
  2. Sous le tableau Algorithm, cliquez sur le bouton [+] afin d'ajouter une ligne.
  3. Dans la colonne column, cliquez sur la nouvelle ligne et sélectionnez dans la liste la colonne sur laquelle vous souhaitez appliquer l'algorithme. Dans cet exemple, sélectionnez DoB.
  4. Dans la colonne algorithm, cliquez sur la nouvelle ligne et sélectionnez dans la liste l'algorithme que vous souhaitez appliquer à la colonne correspondante. Dans cet exemple, sélectionnez substring(a,b).
  5. Cliquez sur la colonne value et saisissez la valeur de l'algorithme sélectionné, si besoin. Dans ce scénario, saisissez 6,10.
    L'algorithme substring(a,b) permet d'extraire les caractères d'une chaîne situés entre deux index,et de retourner la nouvelle sous-chaîne. Le premier caractère est numéroté 0. Dans ce scénario, pour une date de naissance DoB "21-01-1995", la valeur 6,10 retourne uniquement l'année de naissance, soit "1995" qui correspond à la sous-chaîne du 7ème au 10ème caractère.
    Dans cet exemple, générez une clé fonctionnelle contenant les quatre derniers caractères, correspondant à l'année dans la date de naissance (DoB), pour chaque ligne de données, et ne définissez aucune option supplémentaire pour ces colonnes.
    Vous pouvez cocher la case Show help afin d'afficher les instructions concernant la définition des paramètres des algorithmes et des options.
    Après avoir paramétré le composant tGenKey, vous pouvez afficher une vue statistique de ces paramètres. Pour ce faire :
  6. Cliquez-droit sur le composant tGenKey et sélectionnez View Key Profile dans le menu contextuel.
    L'éditeur View Key Profile s'affiche et vous permet de visualiser les statistiques du nombre de blocs et d'adapter les paramètres selon le résultat que vous souhaitez obtenir.
    Remarque :

    Lors du traitement de données volumineuses et lorsque ce composant est utilisé pour partitionner les données afin de les utiliser dans un composant de mise en correspondance (tRecordMatching ou tMatchGroup par exemple), il est préférable d'avoir un nombre restreint de lignes par bloc. La configuration est considérée comme optimale autour de 50 lignes par bloc, mais cela dépend du nombre de champs à comparer, du nombre total de lignes et du temps considéré comme acceptable pour le traitement des données.

    Depuis l'éditeur, vous pouvez :
    • modifier la limite (Limit) du nombre de lignes utilisées pour calculer les statistiques ;

    • cliquer sur l'icône et importer les clés de bloc depuis le référentiel du Studio et les utiliser dans votre Job ;

    • modifier la colonne d'entrée que vous souhaitez traiter à l'aide d'un algorithme ;

    • modifier les paramètres de l'algorithme à appliquer aux colonnes d'entrée.

    Pour chaque modification effectuée, vous pouvez visualiser ses implications en cliquant sur le bouton Refresh situé en haut à droite de l'éditeur.
  7. Cliquez sur OK pour fermer l'éditeur View Key Profile.