Ajout d'un nouveau type de base de données - 2.1

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.4
2.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Talend Data Preparation permet une connexion directe à différents types de bases de données. Vous pouvez les utiliser comme sources afin de créer de nouveaux jeux de données. Par défaut, Talend Data Preparation fournit la connectivité vers les bases de données MySQL, Derby, PostgreSQL, SQL Server et Azure SQL.

Il est possible d'enrichir manuellement la liste des bases de données desquelles vous pouvez importer des données.

La liste des types de bases de données disponibles pour la création de jeux de données dépend des pilotes JDBC stockés dans le dossier <components_catalog_path>/.m2.

Par exemple, vous avez des données clients stockées sur une base de données Oracle et vous souhaitez les importer dans Talend Data Preparation pour effectuer des opérations de nettoyage. Vous allez ajouter un fichier .jar pilote JDBC spécifique aux bases de données Oracle dans la structure de dossiers Components Catalog pour ajouter cette nouvelle source de données dans l'interface de Talend Data Preparation.

Dans un contexte Big Data, si vous souhaitez exécuter des préparations effectuées sur vos données à partir de votre base de données Oracle, sur le cluster Hadoop, le même pilote doit être ajouté à la structure de dossiers du Spark Job Server.

Cette procédure peut s'effectuer à chaud, sans qu'il y ait besoin d'arrêter ou de relancer les différents services.

Avant de commencer

Les serveurs Components Catalog et Spark Job Server doivent être installés et en cours d'exécution sur une machine Linux.

Procédure

  1. Téléchargez le dernier pilote Oracle JDBC nommé ojdbc7.jar, depuis le site Web d'Oracle (en anglais).
  2. Créez le dossier <components_catalog_path>/.m2/jdbc-drivers/oracle/7/.
    Avertissement : La structure de dossiers doit suivre ce modèle : .m2/jdbc-drivers/<database_name>/<jdbc_version>.
  3. Copiez ojdbc7.jar dans le nouveau dossier.
  4. Modifiez le nom du fichier de ojdbc7.jar en oracle-7.jar.
    Avertissement : Le nom du fichier doit suivre ce modèle : <database_name>-<jdbc_version>.

    Renommer le fichier .jar et la structure de dossiers permet d'assurer une uniformité de nommage, ainsi qu'une conformité aux normes Maven.

  5. Mettez à jour le fichier <components_catalog_path>/config/jdbc_config.json en ajoutant les lignes suivantes :
    ,
        {
            "id" : "Oracle Thin",
            "class" : "oracle.jdbc.driver.OracleDriver",
            "url" : "jdbc:oracle:thin:@myhost:1521:thedb",
            "paths" : 
            [
                {"path" : "mvn:jdbc-drivers/oracle/7"}
            ]
    
        }
    où :
    • id est la valeur qui sera affichée dans l'interface de Talend Data Preparation en tant que Database type.
    • class est la classe du pilote utilisé pour communiquer avec la base de données.
    • url est le modèle d'URL pour accéder à une base de données.
    • path suit ce modèle : mvn:jdbc-drivers/my_databse_name/my_version.

    Dans le cas ou la configration d'une base de données nécessite plus d'un fichier .jar, renommez les en suivant le modèle mentionné précédemment et ajoutez les dans leurs dossiers .m2/jdbc-drivers/<jar_name>/<jdbc_version> dédiés, comme vous l'avez fait pour le pilote Oracle. Pour une base de données nécessitant deux fichiers .jar par exemple, vous obtiendriez les deux fichiers suivants :

    .m2/jdbc-drivers/<jar_1>/<version>/<jar_name_1>-<version>.jar et .m2/jdbc-drivers/<jar_2>/<version>/<jar_name_2>-<version>.jar

    Pour terminer la configuration, mettez à jour le fichier <components_catalog_path>/config/jdbc_config.json en utilisant le modèle suivant :

    ,
        {
            "id" : "Database_type",
            "class" : "<driver_class>",
            "url" : "<url_to_access_database>",
            "paths" : 
            [
                {"path" : "mvn:jdbc-drivers/jar_1/version"},
    			{"path" : "mvn:jdbc-drivers/jar_2/version"}
            ]
    
        }
  6. Pour permettre les exports dans le cluster Hadoop pour le nouveau type de jeu de données, copiez-collez le fichier oracle-7.jar dans le dossier <spark_job_server_path>/datastreams-deps/.
  7. Copiez les modifications effectuées dans le fichier <components_catalog_path>/config/jdbc_config.json et collez-les dans le fichier <spark_job_server_path>/jdbc_config.json.

Résultats

La base de données Oracle est à présent disponible dans la liste déroulante database type, dans le formulaire d'import.

Lorsque vous exportez une préparation faite sur des données stockées dans votre base de données Oracle, vous pouvez choisir de traiter les données sur le serveur de Talend Data Preparation, ou sur un cluster Hadoop, si vous êtes un utilisateur de Big Data.

Pour plus d'informations concernant l'import de données depuis d'une base de données, consultez Ajout d'un jeu de données depuis une base de données.