Suivre les modifications d'une insertion de données et écrire ces changements dans une table de dimension SCD - 7.3

SCDELT

author
Talend Documentation Team
EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Business Intelligence > Composants SCDELT
Gouvernance de données > Systèmes tiers > Composants Business Intelligence > Composants SCDELT
Qualité et préparation de données > Systèmes tiers > Composants Business Intelligence > Composants SCDELT
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le premier tJDBCSCDELT pour ouvrir sa vue Basic settings.
  2. Cochez la case Use an existing connection et, dans la liste Component List qui s'affiche, sélectionnez le composant de connexion duquel réutiliser la connexion créée, tJDBCConnection_1 dans cet exemple.
  3. Dans le champ Source table, saisissez le nom de la table dont capturer les modifications, employee dans cet exemple.
  4. Dans le champ Table, saisissez le nom de la table de dimension SCD qui stockera les données des employés actuelles et historiques, employee_scd dans cet exemple.
  5. Sélectionnez Drop table if exists and create dans la liste Action on table afin de créer la table de dimension SCD.
  6. Cliquez sur le bouton [...] à côté du champ Edit schema et, dans la boîte de dialogue, définissez le schéma en ajoutant neuf colonnes : sk et id de type Integer étant les clés primaires, name et role de type String, salary de type Double, start_date et end_date de type Date avec le modèle de date (Date Pattern) yyyy-MM-dd, ainsi que active_status et version de type Integer. Cela fait, cliquez sur OK afin de sauvegarder les modifications et de fermer la boîte de dialogue.
  7. Dans la liste déroulante Surrogate key, sélectionnez le nom de la colonne qui sera utilisée comme clé primaire de la table de dimension SCD, sk dans cet exemple.
  8. Sélectionnez DB sequence dans la liste Creation et, dans le champ Sequence qui s'affiche, saisissez le nom de la séquence Snowflake utilisée pour générer la clé de substitution pour la méthode SCD de Type 2.
  9. Cliquez sur le bouton [+] sous la table Source keys pour ajouter une ligne, cliquez dans la cellule Name et sélectionnez la colonne clé de la table source dans la liste déroulante, id dans cet exemple.
  10. Cochez la case Use SCD type 1 fields, cliquez deux fois sur le bouton [+] sous la table SCD type 1 fields pour ajouter deux lignes. Cliquez dans chaque cellule et, dans la liste déroulante, sélectionnez la colonne sur laquelle effectuer la méthode SCD de Type 1. Dans cet exemple, ces colonnes sont name et role.
  11. Cochez la case Use SCD type 2 fields, cliquez sur le bouton [+] sous la table SCD type 2 fields pour ajouter une ligne. Cliquez dans la cellule et sélectionnez la colonne sur laquelle effectuer la méthode SCD de Type 2. Dans cet exemple, la colonne est salary.
  12. Dans les listes déroulantes Start date et End date, sélectionnez les colonnes utilisées pour contenir la date de début et la date de fin pour la méthode SCD de Type 2, respectivement start_date et end_date dans cet exemple.
  13. Cochez la case Log active status et, dans la liste Active field qui s'affiche, sélectionnez la colonne utilisée pour contenir la valeur du statut actif pour la méthode SCD de Type 2, permettant d'identifier les enregistrements actifs, active_status dans cet exemple.
  14. Cochez la case Log versions et, dans la liste déroulante Version field, sélectionnez la colonne utilisée pour contenir le numéro de version des enregistrements pour la méthode SCD de Type 2, version dans cet exemple.
  15. Sélectionnez Mapping Snowflake dans la liste Mapping pour utiliser le fichier de mapping des métadonnées Snowflake.