Propriétés du tMysqlSCD - 6.3

Composants Talend Open Studio Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Famille du composant

Databases/Business Intelligence/MySQL

 

Basic settings

Property type

Peut être Built-in ou Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

 

 

Built-in : Propriétés utilisées ponctuellement.

 

 

Repository : Sélectionnez le fichier de propriétés du composant. Les champs suivants sont alors pré-remplis à l'aide des données collectées.

 

Use an existing connection

Cochez cette case et sélectionnez le composant de connexion adéquat à partir de la liste Component List pour réutiliser les paramètres d'une connexion que vous avez déjà définie.

Note

Lorsqu'un Job contient un Job parent et un Job enfant, si vous souhaitez utiliser une connexion existant entre les deux niveaux, par exemple pour partager la connexion créée par le Job parent avec le Job enfant, vous devez :

  1. Au niveau parent, enregistrer la connexion à la base de données à partager, dans la vue Basic settings du composant de connexion créant cette connexion.

  2. Au niveau enfant, utiliser un composant dédié à la création de connexion, afin de lire la connexion enregistrée.

Pour plus d'informations concernant le partage d'une connexion à travers différents niveaux de Jobs, consultez le Guide utilisateur du Studio Talend.

 

DB Version

Sélectionnez la version de Mysql que vous utilisez.

 

Host

Adresse IP du serveur de base de données.

 

Port

Numéro du port d'écoute du serveur de base de données.

 

Database

Nom de la base de données.

 

Username et Password

Informations d'authentification de l'utilisateur de la base de données.

Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres.

 

Table

Nom de la table à créer. Vous ne pouvez créer qu'une seule table à la fois.

 

Action on table

Vous pouvez effectuer l'une des opérations suivantes sur les données de la table sélectionnée :

None : n'effectuer aucune opération de table.

Create a table : créer une table qui n'existe pas encore.

Create table if doesn't exist : créer la table si nécessaire.

 

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

 

Built-in : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

SCD Editor

L'éditeur SCD Editor permet de construire et de configurer les données du flux de sortie vers la table Slowly Changing Dimension.

Pour plus d'informations, consultez Méthodologie de gestion du SCD.

 

Use memory saving mode

Cochez cette case pour améliorer les performances du système.

 

Source keys include Null

Cochez cette case pour autoriser, dans les colonnes clés source, les valeurs Null.

Avertissement

Lorsque cette case est cochée, assurez-vous que la valeur de(s) clé(s) source est unique.

 

Die on error

Cette case est décochée par défaut, ce qui vous permet de terminer le traitement avec les lignes sans erreur, et ignorer les lignes en erreur.

Advanced settings

Additional JDBC Parameters

Spécifiez des informations supplémentaires de connexion à la base de données créée. Cette option n'est pas disponible lorsque vous utilisez l'option Use an existing connection dans les Basic settings.

 

End date time details

Spécifiez la valeur de temps du paramètre de date et heure de fin du SCD au format HH:mm:ss. La valeur par défaut pour ce champ est 12:00:00.

Ce champ apparaît uniquement lorsqu'un SCD de Type 2 est utilisé et lorsque Fixed year value est sélectionné pour créer la date de fin du SCD. Pour plus d'informations concernant le SCD de Type 2, consultez Méthodologie de gestion du SCD.

 

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant.

 

Debug mode

Cochez cette case pour afficher chaque étape du processus de d'écriture dans la base de données.

Dynamic settings

Cliquez sur le bouton [+] pour ajouter une ligne à la table. Dans le champ Code, saisissez une variable de contexte afin de sélectionner dynamiquement votre connexion à la base de données parmi celles prévues dans votre Job. Cette fonctionnalité est utile si vous devez accéder à plusieurs tables de bases de données ayant la même structure mais se trouvant dans différentes bases de données, en particulier lorsque vous travaillez dans un environnement dans lequel vous ne pouvez pas changer les paramètres de votre Job, par exemple lorsque votre Job doit être déployé et exécuté dans un Studio Talend indépendant.

La table Dynamic settings n'est disponible que si la case Use an existing connection est cochée dans la vue Basic settings. Lorsqu'un paramètre dynamique est configuré, la liste Component List devient inaccessible dans la vue Basic settings.

Pour des exemples sur l'usage des paramètres dynamiques, consultez Scénario 3 : Lire des données dans des bases de données MySQL à l'aide de connexions dynamiques basées sur les variables de contexte et Scénario : Lire des données à partir de différentes bases de données MySQL à l'aide de paramètres de connexion chargés dynamiquement. Pour plus d'informations concernant les Dynamic settings et les variables de contexte, consultez le Guide utilisateur du Studio Talend.

Global Variables

NB_LINE_UPDATED : nombre de lignes mises à jour. Cette variable est une variable After et retourne un entier.

NB_LINE_INSERTED : nombre de lignes insérées. Cette variable est une variable After et retourne un entier.

NB_LINE_REJECTED : nombre de lignes rejetées. Cette variable est une variable After et retourne un entier.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est un composant de sortie. Par conséquent, il requiert un composant et une connexion de type Row > Main en entrée.

Méthodologie de gestion du SCD

Lors de dimensions à évolution lente ou Slowly Changing Dimensions (SCD), les données changent lentement. L'éditeur SCD permet de construire de manière simple le flux de sortie des données SCD. Dans l'éditeur SCD, vous pouvez relier les colonnes, sélectionner la clé de substitution (Surrogate key) et paramétrer les attributs des colonnes modifiées en combinant les différents types de modifications SCD.

La figure ci-dessous représente l'éditeur SCD.

Clés SCD

Vous devez sélectionner une ou plusieurs colonnes qui serviront de clés permettant d'assurer l'unicité des données entrantes.

Vous devez aussi sélectionner une colonne sur laquelle positionner une clé de substitution (surrogate key) dans la table SCD et la relier à une des colonnes d'entrée de la table source. La valeur de la clé de substitution permet de relier les enregistrements de la table source aux enregistrements de la table SCD. L'éditeur utilise ce mapping pour localiser l'enregistrement dans la table SCD et pour déterminer si un enregistrement est nouveau ou s'il a été modifié. La clé de substitution est généralement la clé primaire de la table source, mais elle peut aussi correspondre à une autre clé à partir du moment où elle permet d'identifier de façon unique un enregistrement et où ses valeurs ne changent pas.

Source keys : Glissez une ou plusieurs colonnes du panneau Unused vers le panneau Source keys. Ces colonnes seront utilisées en tant que clé(s) assurant l'unicité des données entrantes.

Surrogate keys : Paramétrez la colonne dans laquelle la clé de substitution générée sera stockée. Une clé de substitution peut être générée en fonction de la méthode sélectionnée dans la liste Creation.

Creation : Sélectionnez une des méthodes suivantes permettant de générer la clé :

  • Auto increment : la clé est auto-incrémentée.

  • Input field : la clé est fournie par un champ d'entrée.

    Lorsque cette méthode est sélectionnée, vous pouvez glisser le champ correspondant du panneau Unused vers le champ complement.

  • Routine : à partir du champ complement, vous pouvez appuyer sur Ctrl+ Espace afin d'afficher la liste d'auto-complétion et de sélectionner la routine appropriée.

  • Table max +1 : la valeur maximum de la table SCD est incrémentée pour créer une clé de substitution.

  • DB Sequence : à partir du champ complement, vous pouvez saisir le nom de la séquence de la base de données (DB Sequence) existante qui va incrémenter automatiquement la colonne indiquée dans le champ name.

Note

L'option DB Sequence est disponible uniquement depuis l'éditeur SCD du composant tOracleSCD.

Types de SCD

Il existe quatre types de dimensions à évolution lente (Slowly Changing Dimensions) : du Type 0 au Type 3. Vous pouvez, d'un simple glisser-déposer, appliquer n'importe quel type de SCD à n'importe quelle colonne de la table source.

  • Type 0 : ce type de SCD n'est pas beaucoup utilisé. Certaines données dimensionnelles peuvent être écrasées et d'autres peuvent rester inchangées au cours du temps. Ce type de SCD convient lorsque aucun effort n'a été mis en place pour gérer les dimensions à caractère évolutif.

  • Type 1 : aucun historique n'est stocké dans la base de données. Les nouvelles données écrase les anciennes. Utilisez ce type si vous n'avez pas besoin de traquer les changements. Ce type de SCD convient lorsque vous corrigez certaines fautes, par exemple l'orthographe des mots.

  • Type2 : l'intégralité de l'historique est stockée dans la base de données. Ce type de SCD traque les données d'historique en enregistrant un nouvel enregistrement dans la table de dimension avec une nouvelle clé à chaque fois qu'un changement est effectué. Ce type de SCD convient lorsque l'on traque les mises à jour, par exemple.

    Le principe du SCD Type 2 réside dans le fait qu'un nouvel enregistrement est ajouté à la table SCD lorsqu'un changement est détecté dans les colonnes sélectionnées. Notez que bien que plusieurs changements peuvent être effectués au même enregistrement sur plusieurs colonnes paramétrées en Type 2, une seule ligne traquant ces changements est ajoutée à la table SCD.

    Le schéma du SCD Type 2 devrait inclure des colonnes spécifiques au SCD contenant les informations de log standard, notamment :

    -start : ajoute une colonne au schéma de la table SCD contenant la date de début d'un enregistrement. Vous pouvez sélectionner une des colonnes du schéma d'entrée comme date de départ pour la table SCD.

    -end : ajoute une colonne au schéma de la table SCD contenant la date de fin d'un enregistrement. Lorsque l'enregistrement est en cours, la date de fin est de valeur NULL , sinon vous pouvez utiliser une année fixe en sélectionnant Fixed Year Value dans la liste et renseignez l'année fictive dans la cellule d'à côté pour éviter d'avoir une valeur nulle dans le champ end.

    -version : ajoute une colonne au schéma de la table SCD contenant le numéro de version de l'enregistrement.

    -active : ajoute une colonne au schéma de la table SCD contenant les statuts true ou false. Cette colonne permet de repérer facilement les enregistrements actifs.

  • Type 3 : seules les informations sur l'ancienne valeur d'une dimension est écrite dans la base de données. Ce type de SCD traque les changements en utilisant des colonnes séparées. Ce type de SCD convient lorsque l'on traque les valeurs précédentes d'une colonne qui change.