Talendジョブでのバージョンの使用 - 2.5

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
2.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

Talend Studioでは、プレパレーションの複数のバージョンをデータ統合またはビッグデータジョブ内で使用できます。

Talend Studioでは、tDataprepRunコンポーネントにより、プレパレーションまたはその特定のバージョンを再使用して、同じモデルのデータに適用することができます。

プレパレーションをその現在の状態で使用することもできますが、特定のバージョンを使用すれば、プレパレーションがまだ作業中でも、ジョブで使用されるプレパレーションの状態を常に同じに保つことができるため、より高い整合性を維持することができます。

以下の例では、Salesforce入力データに既存のプレパレーションを適用し、Redshiftデータベースにその結果を出力するジョブを示します。

このプレパレーションは、名前、電話番号、メールアドレスなどの基本的な顧客情報を格納したデータセット上に作成されています。名前エントリーのフォーマットエラーを排除し、電話番号から無効な値を削除するためにいくつかのステップが適用されています。

プレパレーション中に2つのバージョンも作成されました。1つ目は2つのステップの後、2つ目は3番目のステップの後です。

始める前に

  • 少なくとも1つのバージョンを持つプレパレーションをTalend Data Preparation内で作成済みです。ここでは、既存のプレパレーションはcontacts cleansingといいます。
  • Salesforceからインポートしたデータのスキーマは、最初にプレパレーションを作成するために使用したデータセットと同じスキーマである必要があります。

手順

  1. 新しい標準ジョブまたはSparkジョブをTalend Studioで作成します。
  2. Talend StudioのデザインワークスペースでtSalesforceInputtDataprepRuntRedshiftOutputを追加し、2つの[Row] (行) > [Main] (メイン)リンクを使ってリンクします。
  3. tSalesforceInputコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。

    tSalesforceInputコンポーネントのスキーマは必ず、tDataprepRunコンポーネントによって予測されるスキーマに一致させて下さい。

  4. tDataprepRunコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。
  5. Talend Data Preparationの接続情報を入力します。
  6. [Choose an existing preparation] (プレパレーションを選択)をクリックして、Talend Data Preparationで使用可能なプレパレーションのリストを表示します。
  7. 適用するプレパレーションのバージョンを含んだcontacts cleansingの前のチェックボックスを選択して、[OK]をクリックします。
  8. [choose a version] (バージョンを選択)をクリックして、プレパレーションの使用可能なバージョンのリストからバージョンを選択します。この場合、バージョン1を選択します。

    ジョブでは、選択されたプレパレーションの現在の状態がデフォルトで使用されます。共同作業の状況で、一定のバージョンの代わりに現在の状態を使用すると、知らないうちに誰かがプレパレーションに変更を加える可能性があります。その結果、ジョブの結果がどうなるのか正確に把握できなくなります。このような理由から、ジョブでバージョンを使用した方が安全です。

  9. [Fetch Schema] (スキーマを取得)をクリックして、contacts cleansingのスキーマを取得します。
  10. tRedshiftOutputコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。
  11. ジョブを保存し、[F6]を押して実行します。

タスクの結果

選択したバージョンのプレパレーションに含まれるすべてのプレパレーションステップが、ジョブのフロー内で直接データに適用されます。