Accéder au contenu principal Passer au contenu complémentaire

Talend Data Integration - Import

Availability-note AWS

Prérequis du pont

Ce pont :
  • nécessite un accès à Internet vers https://repo.maven.apache.org/maven2/ et/ou d'autres sites d'outils permettant de télécharger des pilotes dans <TDC_HOME>/data/download/MIMB/.

Spécifications du pont

Fournisseur Talend
Nom de l'outil Talend Data Integration
Version de l'outil 5.x à 8.x
Site Web de l'outil https://www.talend.com/fr/products/data-integration/ (uniquement en anglais)
Méthodologie supportée [Intégration de données] Multimodèle, Data Store (Modèle de données physique, Modèle de données logique, Parsage d'expressions de procédures stockées), ELT (Data Stores sources et cibles, Lignage de transformation, Parsage d'expressions), Disposition graphique via une API Eclipse Java
Profiling de données
Collecte incrémentale
Collecte multi-modèle
Navigation dans le référentiel distant pour sélectionner un modèle

SPÉCIFICATIONS
Outil : Talend/Talend Data Integration version 5.x à 8.x via une API Eclipse Java
Consultez https://www.talend.com/fr/products/data-integration/
Métadonnées : [Intégration de données] Multimodèle, Data Store (Modèle de données physique, Modèle de données logique, Parsage d'expressions de procédures stockées), ELT (Data Stores sources et cibles, Lignage de transformation, Parsage d'expressions), Disposition graphique
Composant : Talend version 11.2.0

AVERTISSEMENT
Ce pont d'import nécessite un accès à Internet pour télécharger les bibliothèques tierces :
- comme https://repo.maven.apache.org/maven2/ pour télécharger les bibliothèques open source tierces,
- et d'autres sites pour plus de logiciels tiers, comme des pilotes de bases de données spécifiques à JDBC.

Les bibliothèques tierces téléchargées sont stockées dans $HOME/data/download/MIMB/
- Si le protocole HTTPS échoue, le pont d'import essaye ensuite avec HTTP.
- Si un proxy est utilisé pour accéder à Internet, vous devez configurer ce proxy dans l'environnement JRE (voir l'option -j dans le paramètre Divers).
- Si le pont d'import n'a pas d'accès à Internet, le répertoire $HOME/data/download/MIMB/ peut être copié depuis un autre serveur qui a accès à Internet, où la commande $HOME/bin/MIMB.sh (ou .bat) -d peut être utilisée pour télécharger en une fois toutes les bibliothèques tierces utilisées par tous les ponts.

En exécutant ce pont d'import, vous reconnaissez être responsable des conditions d'utilisation et de toute autre faille de sécurité potentielle liées au téléchargement de ces bibliothèques logicielles tierces.

VUE D'ENSEMBLE
Ce pont d'import analyse des Jobs, Joblets et connexions Talend Data Integration d'un répertoire de projet d'intégration de données Talend pour extraire les modèles de données de leurs data stores sources et cibles (par ex. schémas, tables, colonnes de base de données), ainsi que les modèles d'intégration de données (DI/ETL/ELT) pour le lignage du flux entre ces data stores.

PRÉREQUIS
n/a

FOIRE AUX QUESTIONS
Q : Comment obtenir un lignage à partir d'un code Java écrit manuellement dans le tJavaRow ?
R : Vous pouvez fournir les spécifications de mapping de données au bas du paramètre de commentaire des composants de code personnalisé tels que le tJavaRow, avec la syntaxe suivante :

*** début du lignage ***
output_row.newColumn = input_row.newColumn;
output_row.newColumn1 = input_row.newColumn1;
*** fin du lignage ***

L'utilisateur peut spécifier les dépendances de lignage des données à l'aide d'une ou plusieurs instruction(s) avec des opérations et des fonctions arithmétiques.
Les trois exemples suivants produisent les mêmes dépendances, mais des opérations différentes.

output_row.newColumn = input_row.newColumn+input_row.newColumn1;

output_row.newColumn = input_row.newColumn;
output_row.newColumn = input_row.newColumn1;

output_row.newColumn = custom_function(input_row.newColumn, input_row.newColumn1);

L'utilisateur peut spécifier les dépendances de lignage de contrôle à l'aide de l'opérateur Java ? :.

output_row.newColumn = (input_row.newColumn > 0) ? input_row.newColumn1 : 12;

Q : Comment effectuer un import pour que mes connexions se connectent à Talend Data Preparation ?
R : Ce pont peut tirer parti de la sauvegarde de Talend Data Preparation et produire des connexions qui se connectent (correspondent) à ce qui se trouve dans Talend Data Preparation.
1. Pour produire cette sauvegarde, exécutez le pont Data Preparation avec l'option "-backup" sous le paramètre Divers du pont.
2. Spécifiez l'option "talenddatapreparation.backup" dans le paramètre Divers de ce pont, ainsi que le nom chemin d'accès au dossier d'entrée produit dans l'étape 1.

LIMITATIONS
Consultez les limitations générales connues à l'adresse MIMB Known Limitations ou dans Documentation/ReadMe/MIMBKnownLimitations.html où elles sont regroupées

SUPPORT
Fournissez un package de dépannage avec :
- le log de débogage (peut être défini dans l'UI ou dans conf/conf.properties avec MIR_LOG_LEVEL=6)
- la sauvegarde des métadonnées si disponible (peut être configurée dans le paramètre Divers avec l'option -backup, même si cette option commune n'est pas implémentée pour tous les ponts pour des raisons techniques).


Paramètres du pont

Nom du paramètre Description Type Valeurs Défaut Périmètre
Répertoire du projet Répertoire de fichiers dans lequel se trouve le projet Talend.
Il doit exister un répertoire de processus, de métadonnées ou de Joblets.
RÉPERTOIRE     Éléments obligatoires
Éléments de projet Noms d'éléments, tels que les Jobs ou les connexions, séparés par un point-virgule. Un élément est identifié avec son chemin d'accès dans le référentiel Talend (système de fichiers). Par exemple, un jobName de Job dans un folderName de dossier doit être identifié comme process/folderName/jobName.

Les types suivants d'éléments et leur chemin d'accès racine sont supportés :
Job Designs - processus
Connexions - métadonnées/connexions
Fichier délimité - métadonnées/fichier délimité
Fichier délimité - métadonnées/fichier positionnel

Spécifiez une liste de Jobs exécutables de haut niveau dont vous souhaitez analyser le lignage de données.
Un Job peut exécuter un autre Job. La liste ne doit pas mentionner uniquement des Jobs qui sont exécutés par d'autres Jobs. Cela peut avoir comme effet de générer un lignage avec des informations fausses ou en doublon.

Si un dossier n'a que des Jobs nécessaires, son chemin peut être mentionné dans la liste. Cela peut être utile lorsque vous disposez d'un grand nombre de Jobs exécutables. Il est donc préférable de tous les référencer via les dossiers dans lesquels ils se trouvent.

Exemple de liste de noms de Jobs et de dossiers : 'process/jobName1; process/folder/jobName2; process/parentFolder/childFolder/'

Si vous travaillez avec une connexion bien documentée qui possède des commentaires/noms métier pour les tables/colonnes, vous pouvez effectuer un traitement préalable des métadonnées dans d'autres outils (p. ex. de modélisation de données).

Si vous souhaitez créer des mappings dans Microsoft Excel, vous pouvez préremplir la conception avec les connexions sources et cibles déjà disponibles dans Talend. Spécifiez les connexions sources et cibles de type base de données, fichier, etc.

Exemple de liste de connexions : "metadata/connections/dbConnection1; metadata/connections/folder/dbConnection1; metadata/filePositional/file1"

Les connexions sont ignorées lorsque les Jobs sont spécifiés.
REPOSITORY_SUBSET     Éléments obligatoires
Contexte de Job Spécifiez le contexte du Job Talend. Si ce paramètre n'est pas renseigné, le contexte "Par défaut" est utilisé.
Il peut arriver que des Jobs aient plusieurs contextes, par exemple des ensembles de paramètres DEV/QA. Spécifiez l'ensemble de paramètres à utiliser pour un import.
Chaîne de caractères      
Répertoire de fichier de contextes Cette option vous permet de fournir le chemin d'accès au répertoire qui contient les fichiers plats de contextes Talend (*.txt, *.prn, *.csv).
Les fichiers du répertoire définissent les valeurs de paramètres "globales" qui s'appliquent à tous les Jobs importés.
Talend Data Integration organise les Jobs en dossiers. Si vous avez besoin de spécifier des valeurs "locales" pour un Job particulier, vous devez créer la hiérarchie de dossiers de Jobs dans un répertoire et placer les fichiers de contextes spécifiques du Job dans le dossier de l'arborescence représentant le Job.
Le fichier définit le paramètre comme une paire clé/valeur avec "=" (symbole égal) ou ";" (point-virgule) ou " " (espace) ou ":" (deux points) ou "," (virgule).
Par exemple :
parameter1=somestring
parameter2=1000
Remarque : Le pont ne supprime aucun espace de début ou de fin autour d'une valeur de paramètre.
Par défaut, ce dossier "données" se trouve dans le "Répertoire de projet".
RÉPERTOIRE      
Miscellaneous INTRODUCTION
Spécifiez les options Divers, commençant par un tiret et suivies éventuellement par des paramètres, par exemple :
-connection.cast MyDatabase1="MICROSOFT SQL SERVER"
Certaines options peuvent être utilisées plusieurs fois, si applicable, par exemple :
-connection.rename NewConnection1=OldConnection1 -connection.rename NewConnection2=OldConnection2;
La liste d'options pouvant être une longue chaîne, il est possible de la charger à partir d'un fichier qui doit être situé dans ${MODEL_BRIDGE_HOME}\data\MIMB\parameters et avoir l'extension .txt. Dans ce cas, toutes les options doivent être définies au sein de ce fichier comme seule valeur de ce paramètre, par exemple
ETL/Miscellaneous.txt

OPTIONS DE L'ENVIRONNEMENT JAVA
-java.memory <taille maximale de la mémoire Java> (anciennement -m)

1 Go par défaut sur un JRE de 64 bits ou tel que défini dans conf/conf.properties, par exemple
-java.memory 8G
-java.memory 8000M

-java.parameters <options de ligne de commande de Java Runtime Environment> (anciennement -j)

Cette option doit être la dernière dans le paramètre Divers car tout le texte après -java.parameters est passé tel quel à la JRE. Par ex.
-java.parameters -Dname=value -Xms1G
L'option suivante doit être définie lorsqu'un proxy est utilisé pour accéder à Internet (cela est essentiel pour accéder à https://repo.maven.apache.org/maven2/ et exceptionnellement à quelques autres sites d'outils) afin de télécharger les bibliothèques logicielles tierces nécessaires.
Note : La majorité des proxys sont relatifs au chiffrement (HTTPS) du trafic extérieur (à l'entreprise) et à la confiance en le trafic intérieur pouvant accéder au proxy via HTTP. Dans ce cas, une requête HTTPS atteint le proxy via HTTP où le proxy la chiffre en HTTPS.
-java.parameters -java.parameters -Dhttp.proxyHost=127.0.0.1 -Dhttp.proxyPort=3128 -Dhttp.proxyUser=user -Dhttp.proxyPassword=pass

OPTIONS D'IMPORT DU MODÈLE
-model.name <nom modèle>

Écrase le nom du modèle, par ex.
-model.name "My Model Name"

-prescript <nom script>

Cette option permet d'exécuter un script avant l'exécution du pont.
Le script doit se situer dans le répertoire bin (ou comme spécifié dans M_SCRIPT_PATH dans conf/conf.properties) et avoir une extension .bat ou .sh.
Le chemin d'accès au script ne doit pas inclure de symbole relatif au répertoire parent (..).
Le script doit retourner le code de sortie 0 pour indiquer un succès ou une autre valeur pour indiquer un échec.
Par exemple :
-prescript "script.bat arg1 arg2"

-postscript <nom script>

Cette option permet d'exécuter un script après l'exécution réussie du pont.
Le script doit se situer dans le répertoire bin (ou comme spécifié dans M_SCRIPT_PATH dans conf/conf.properties) et avoir une extension .bat ou .sh.
Le chemin d'accès au script ne doit pas inclure de symbole relatif au répertoire parent (..).
Le script doit retourner le code de sortie 0 pour indiquer un succès ou une autre valeur pour indiquer un échec.
Par exemple :
-postscript "script.bat arg1 arg2"

-cache.clear

Vide le cache avant l'import et va exécuter un import complet avec collecte incrémentale.

Si le modèle n'a pas été modifié et que le paramètre -cache.clear n'est pas utilisé (collecte incrémentale), une nouvelle version ne sera pas créée.
Si le modèle n'a pas été modifié et que le paramètre -cache.clear n'est pas utilisé (collecte incrémentale), une nouvelle version ne sera pas créée.

-backup <répertoire>

Cette option permet de sauvegarder les métadonnées d'entrée du pont à des fins de débogage. Le <répertoire> fourni doit être vide.

L'utilisation principale de cette option concerne les ponts d'import des data stores, en particulier les ponts d'import basés sur des bases de données JDBC.

Notez que cette option n'est pas opérationnelle sur certains ponts, notamment :
- les ponts d'import basés sur des fichiers (car des fichiers d'entrée peuvent être utilisés à la place)
- les ponts d'import de référentiels d'intégration de données/BI (car les outils natifs de sauvegarde du référentiel peuvent être utilisés à la place)
- Certains ponts d'import basés sur des API (par ex. basés sur COM) pour des raisons techniques.

OPTIONS DES CONNEXIONS DE DONNÉES
Les connexions de données sont produites par les ponts d'import, généralement à partir des outils ETL/DI et BI pour faire référence aux data stores sources et cibles qu'elles utilisent. Ces connexions de données sont ensuite utilisées par les outils de gestion des métadonnées pour connecter ces dernières (connexion des métadonnées) à leurs data stores réels (par exemple, bases de données, système de fichiers, etc.) afin de produire le lignage complet de flux de données et de l'analyse d'impact de bout en bout. Le nom des connexions de données doit être unique dans chaque modèle d'import. Les noms de connexion de données utilisés dans les outils de conception DI/BI sont utilisés quand cela est possible, sinon ils sont générés en étant courts mais significatifs, comme le nom de la base de données/du schéma, le chemin d'accès au système de fichiers ou l'URI (Uniform Resource Identifier). L'option suivante vous permet de manipuler les connexions. Ces options remplacent les options héritées -c, -cd et -cs.

-connection.cast ConnectionName=ConnectionType

Lance une connexion à une base de données générique (par exemple ODBC/JDBC) pour un type de base de données précis (par exemple ORACLE) pour une analyse SQL, par exemple
-connection.cast "My Database"="MICROSOFT SQL SERVER".
La liste des types de connexions aux data stores comprend :
ACCESS
APACHE CASSANDRA
DB2/UDB
DENODO
GOOGLE BIGQUERY
HIVE
MYSQL
NETEZZA
ORACLE
POSTGRESQL
PRESTO
REDSHIFT
SALESFORCE
SAP HANA
SNOWFLAKE
MICROSOFT SQL AZURE
MICROSOFT SQL SERVER
SYBASE SQL SERVER
SYBASE AS ENTERPRISE
TERADATA
VECTORWISE
HP VERTICA

-connection.rename OldConnection=NewConnection

Renomme une connexion existante, par exemple, par ex.
-connection.rename OldConnectionName=NewConnectionName
Plusieurs connexions de bases de données existantes peuvent être renommées et fusionnées en une nouvelle connexion de base de données, par exemple :
-connection.rename MySchema1=MyDatabase -connection.rename MySchema2=MyDatabase

-connection.split oldConnection.Schema1=newConnection

Scinde une connexion de base de données en une ou plusieurs connexions de base de données.
Une connexion de base de données peut être scindée en une connexion par schéma, par exemple :
-connection.split MyDatabase
Toutes les connexions de base de données peuvent être fractionnées en une connexion par schéma, par exemple :
-connection.split *
Une connexion de base de données peut être explicitement fractionnée en une nouvelle connexion de base de données en ajoutant un nom de schéma à une base de données, par exemple :
-connection.split MyDatabase.schema1=MySchema1

-connection.map SourcePath=DestinationPath

Mappe un chemin d'accès source à un chemin d'accès de destination. Cela est utile pour les connexions aux systèmes de fichiers lorsque différents chemins d'accès pointent vers le même objet (répertoire ou fichier).
Sur Hadoop, un processus peut écrire dans un fichier CSV spécifié avec le chemin d'accès complet HDFS, tandis qu'un autre processus lit d'une table Hive implémentée (externe) par le même fichier spécifié à l'aide d'un chemin d'accès relatif avec un nom et une extension de fichier par défaut, par exemple :
-connection.map /user1/folder=hdfs://host:8020/users/user1/folder/file.csv
Sous Linux, il peut être fait référence à un répertoire (ou à un fichier) donné tel que /data par plusieurs liens symboliques tels que /users/john et /users/paul, par exemple :
-connection.map /data=/users/John -connection.map /data=/users/paul
Sous Windows, il peut être fait référence à un répertoire donné tel que C:\data par plusieurs lecteurs réseau tels que M: et N:, par exemple :
-connection.map C:\data=M:\ -connection.map C:\data=N:\

-connection.casesensitive ConnectionName

Écrase les règles de rapprochement insensibles à la casse par défaut pour les identifiants d'objets dans la connexion spécifiée, si le type du data store détecté supporte cette configuration (par ex. Microsoft SQL Server, MySQL etc.), par exemple :
-connection.casesensitive "My Database"

-connection.level AggregationLevel

Spécifie le niveau d'agrégation pour les connexions externes, par exemple -connection.level catalog
Liste des valeurs supportées :
server (serveur)
catalog (catalogue)
schema (schéma) (par défaut)

OPTIONS ETL
Ces options sont disponibles dans tous les ponts d'import de scrit et d'outils d'intégration de données/d'ETL afin de :
- traiter tous les parsages SQL
- construire des modèles au moment de l'exécution à partir de modèles de conception et de variables d'exécution,
- calculer un lignage de synthèse au moment de l'exécution.

-etl.summary.add.ultimate (anciennement -ppus)

Ajoute la dernière synthèse de lignage d'exécution (peut générer un modèle très volumineux).

-etl.summary.only.ultimate (précédemment -ppsp)

Produit uniquement la dernière synthèse de lignage d'exécution (peut générer un modèle très volumineux).

-etl.connections.add.internal.design (précédemment -pppd)

Ajoute les connecteurs internes de données de conception ETL (requis pour la conversion ETL).

-etl.connections.remove.input (anciennement -ri)

Supprime toutes les connexions de données d'entrée (source), afin de réduire la taille du modèle généré.

-etl.transformations.enable.xml

Cette option permet le parsage et le support des transformations XML dans des ponts d'import d'intégration de données/ETL comme Informatica PowerCenter, Informatica Developer, Microsoft SSIS, IBM DataStage et Talend Data Integration.
Dans le cas d'Informatica, de telles transformations XML correspondent aux fonctionnalités suivantes de PowerCenter
https://docs.informatica.com/data-integration/powercenter/10-5/xml-guide/midstream-xml-transformations.html
https://docs.informatica.com/data-integration/powercenter/10-5/xml-guide/xml-source-qualifier-transformation.html
Notez que cette option peut ralentir l'import de manière considérable.

OPTIONS DE TALEND DATA INTEGRATION
-context.file.delimiter <séparateur de fichiers de contexte>

Est utilisé avec le paramètre de pont Répertoire des fichiers de contexte. Les fichiers de contexte sont utilisés pour écraser les paramètres définis dans les métadonnées de Jobs, au format suivant - [parameter name]=[value]. Par défaut, le séparateur est "=". Vous pouvez écraser ce séparateur par défaut par n'importe quel symbole, p. ex.
-context.file.delimiter :

-runtime.lineage <dossier de log de lignage lors de l'exécution>

Spécifie un dossier de log du lignage lors de l'exécution (généré par Talend Data Integration) pour importer les expressions SQL définies en externe chargées dynamiquement par des composants spécifiques de transformation dans des Jobs, comme le tDBRow. La syntaxe de cette option doit contenir "Output path (Chemin de sortie)", comme indiqué dans les paramètres du projet ("Project Settings") Talend Data Integration, ainsi que dans le nom du projet ("Project Name").
Par exemple :
-runtime.linage <Output path>/<project name>


-runtime.lineage.components <liste des composants nécessitant un log de lignage lors de l'exécution>

Spécifie la liste des composants de transformation nécessitant le log de lignage externe lors de l'exécution en fournissant une liste de <components type> séparés par un point-virgule et, de manière facultative, ayant un préfixe du nom de leur Job <job name>.<component type> p. ex.
Job1.tDBRow;tDBInput;tDBOutput
où le log de lignage externe lors de l'exécution sera pris en compte pour toutes les utilisations des composants tDBInput et tDBOutput et l'utilisation du tDBRow par le Job uniquement.

-talenddatapreparation.backup <dossier d'entrée de sauvegarde de Talend Data Preparation>

Spécifie la sauvegarde Talend Data Preparation lorsque le tDataprepRun est utilisé.
- La sauvegarde doit être créée par le pont Data Preparation avec l'option '-backup'.
- Le chemin d'accès au fichier doit être celui du dossier d'entrée généré par le pont Talend Data Preparation.

-internal.parameter.overwrite <nom du paramètre interne>= <valeur>

Permet d'écraser la valeur d'un paramètre interne impliqué dans un composant de connexion (par exemple tOracleInput, tFileOutputDelimited etc.) lorsque l'entrée est attribuée à des paramètres internes. Cette option peut écraser trois types de paramètres internes : Connection, Schema et Operation.
Si le pont ne parvient pas à importer des informations de connexion ou des paramètres internes opérationnels, cette option peut être utilisée pour aider le pont à comprendre dynamiquement les cas complexes. Le nom du paramètre interne se compose de deux parties : l'ID natif du composant et le nom du paramètre, séparés par un $ et entourés de symboles $$, par ex.
$$tOracleInput_1$Connection$=NewConnectionName ou $$tFileOutputDelimited_1$Connection$$=c:\new\path\for\file.txt
L'identifiant natif se trouve dans le Studio Talend (__UNIQUE_NAME__) ou dans le modèle importé depuis l'identifiant natif de la transformation.

-parameters.output.path <chemin>

Génère des modèles de fichiers de paramètres pour simplifier la configuration
Chaîne de caractères      

 

Mapping du pont

Les informations de mapping ne sont pas disponibles

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.