Talendジョブでのレシピの操作の実行 - 2.5

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
2.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

プレパレーションをTalend Studioでデータ統合フローの一部として使用することができます。

tDataprepRunコンポーネントを使用すると、Talend Data Preparationで作成した既存のプレパレーションをデータ統合ジョブで直接再使用できます。つまり、同じモデルを持つ入力ファイルに対してプレパレーションを適用するプロセスの操作が可能になります。

この例では、Salesforce入力データにプレパレーションを適用し、Redshiftデータベースにその結果を出力するジョブを示します。これらの操作を実行するには、ジョブの入力ファイルと同じスキーマのデータセット上にプレパレーションをあらかじめ作成しておく必要があります。ここでは、既存のプレパレーションはdatapreprun_preparationといいます。

tDataprepRunコンポーネントは中間ステップであり、入力および出力フローが必要です。 どのタイプの入力および出力フローでも使用できますが、基本的な作業ジョブは次のようになります。

始める前に

https接続でTalend Data Preparationを実行する際に、tDataprepRunコンポーネントを機能させるには、次の設定を行います。

  • 以下の例では、Talend Data Preparation証明書またはその認証機関を取得して、既存のまたは新しい.jksファイルに追加します。keytool -import -trustcacerts -alias <cert-alias> -file <dp_certificate.crt> -keystore <truststore.jks>
  • StudioにTalend Data Preparation証明書を信頼させるには、Studioの起動に使用する.iniファイルを編集します。
    -Djavax.net.ssl.trustStore=/path/to/<trust-store.jks>
    -Djavax.net.ssl.trustStorePassword=<trust-store password>
  • ジョブがTalend Data Preparation証明書を信頼するように、tSetKeystoreコンポーネントをOnSubjobOkリンクでtSalesforceInputに接続します。

    tSetKeystoreの設定方法の詳細については、tSetKeystoreのマニュアルを参照してください。

手順

  1. Talend StudioのデザインワークスペースでtSalesforceInputtDataprepRuntRedshiftOutputを追加し、2つの[Row] (行) > [Main] (メイン)リンクを使ってリンクします。
  2. tSalesforceInputコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。

    tSalesforceInputコンポーネントのスキーマは必ず、tDataprepRunコンポーネントによって予測されるスキーマに一致させてください。つまり、入力スキーマは、プレパレーションが最初に作成されたデータセットと同じである必要があります。

  3. tDataprepRunコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。
  4. Talend Data Preparationの接続情報を入力します。
  5. [Choose an existing preparation] (プレパレーションを選択)をクリックして、Talend Data Preparationで使用可能なプレパレーションのリストを表示します。
  6. 適用するプレパレーションの前のチェックボックスを選択して[OK]をクリックします。
  7. [Fetch Schema] (スキーマを取得)をクリックして、プレパレーションのスキーマを取得します。この場合は、datapreprun_preparationです。

    tDataprepRunコンポーネントの出力スキーマには、各プレパレーションステップで行われた変更が反映されています。スキーマでは、たとえば、追加または削除されたカラムが考慮されます。

  8. tRedshiftOutputコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。
  9. [Sync columns] (カラムの同期)をクリックして、tDataprepRunコンポーネントから継承された新しい出力スキーマを取得します。
  10. ジョブを保存し、[F6]を押して実行します。

タスクの結果

datapreprun_preparationのすべてのプレパレーションステップがデータ統合ジョブのフローから直接データに適用されます。