新しいデータベースタイプの追加 - 2.8

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
2.8
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

Talend Data Preparation では、さまざまなタイプのデータベースに直接接続することができ、それらをソースとして新しいデータセットを作成することができます。

必要に応じて、データのインポート元として使用するデータベースタイプを追加することができます。

データセットの作成に利用できるデータベースタイプは、<components_catalog_path>/.m2フォルダーに保存したJDBCドライバーに依存します。

たとえば、Oracleデータベースに顧客データが保存されていて、クレンジング操作を行うためにTalend Data Preparation にインポートするとします。この場合、Oracleデータベースに固有のJDBCドライバーの.jarファイルをコンポーネントカタログのフォルダー構造に追加して、この新しいデータソースを Talend Data Preparationインターフェイスに加えます。

ビッグデータのコンテキストでは、Oracleデータベースからインポートしたデータで作成したプレパレーションを実行するには、Hadoopクラスター上で、同じドライバーをSparkジョブサーバーのフォルダー構造に追加する必要があります。

サービスを停止または再起動しなくても、次の手順を完了できます。

始める前に

コンポーネントカタログサーバーとSparkジョブサーバーはLinuxマシンにインストールされ、実行されています。

手順

  1. Oracleのウェブサイトから、ojdbc7.jarというOracle JDBCドライバーの最新版をダウンロードします。
  2. <components_catalog_path>/.m2/jdbc-drivers/oracle/7/フォルダーを作成します。
    警告: フォルダー構造は次のテンプレートに従う必要があります: .m2/jdbc-drivers/<database_name>/<jdbc_version>
  3. 新しく作成したフォルダーにojdbc7.jarをコピーします。
  4. ファイル名をojdbc7.jarからoracle-7.jarに変更します。
    警告: フォルダー構造は次のテンプレートに従う必要があります: <database_name>-<jdbc_version>

    .jarファイルとフォルダー構造の名前を変更する目的は、名前の一貫性を維持し、Mavenに適合させるためです。

  5. 次の行を追加して<components_catalog_path>/config/jdbc_config.jsonファイルを更新します。
    ,
        {
            "id" : "Oracle Thin",
            "class" : "oracle.jdbc.driver.OracleDriver",
            "url" : "jdbc:oracle:thin:@myhost:1521:thedb",
            "paths" : 
            [
                {"path" : "mvn:jdbc-drivers/oracle/7"}
            ]
    
        }
    説明:
    • idTalend Data Preparationは、のインターフェイスに[Database type] (データベースタイプ)として表示される値です。
    • classは、データベースとの通信に使用されるドライバークラスです。
    • urlは、データベースにアクセスするためのURLテンプレートです。
    • pathは、次のモデルに従います: mvn:jdbc-drivers/my_databse_name/my_version

    データベース設定で複数の.jarファイルが必要な場合、前述のテンプレートに従って名前を変更し、Oracleドライバーの場合と同様に、専用の.m2/jdbc-drivers/<jar_name>/<jdbc_version>フォルダーに追加します。たとえば、.jarファイルを2つ必要とするデータベースの場合は、次の2つのファイルのようになります:

    .m2/jdbc-drivers/<jar_1>/<version>/<jar_name_1>-<version>.jarおよび.m2/jdbc-drivers/<jar_2>/<version>/<jar_name_2>-<version>.jar

    設定を完了するには、次のモデルを使用して<components_catalog_path>/config/jdbc_config.jsonファイルを更新します:

    ,
        {
            "id" : "Database_type",
            "class" : "<driver_class>",
            "url" : "<url_to_access_database>",
            "paths" : 
            [
                {"path" : "mvn:jdbc-drivers/jar_1/version"},
    			{"path" : "mvn:jdbc-drivers/jar_2/version"}
            ]
    
        }
  6. 新しいデータセットタイプについてHadoopクラスターへのエクスポートを有効にするには、oracle-7.jarファイルを<spark_job_server_path>/datastreams-deps/フォルダーにコピーします。
  7. <components_catalog_path>/config/jdbc_config.jsonファイルの変更をコピーし、<spark_job_server_path>/jdbc_config.jsonファイルに貼り付けます。

タスクの結果

これで、Oracleデータベースがインポートフォーム内の[database type] (データベースタイプ)ドロップダウンリストに表示されます。

Oracleデータベースに保存されているデータで作成したプレパレーションをエクスポートするときに、データの処理をTalend Data Preparationサーバーで行うか、またはビッグデータを使用している場合はHadoopクラスターで行うよう選択することができます。

データベースからデータをインポートする方法の詳細は、データベースからのデータセットの追加を参照してください。