Talendジョブでのバージョンの使用 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

Talend Studioでは、プレパレーションのバージョンをデータ統合またはビッグデータジョブ内で使用できます。

Talend Studioでは、tDataprepRunコンポーネントにより、プレパレーションまたはそのバージョンのいずれかを再使用して、同じモデルのデータに適用することができます。

注: tDataprepRunTalend Cloud Data Preparationコンポーネントを使用するには、Talend Studioバージョン7.1以上が必要です。

プレパレーションをその現在の状態で使用することもできますが、特定のバージョンを使用すれば、プレパレーションがまだ作業中でも、ジョブで使用されるプレパレーションの状態を常に同じに保つことができるため、より高い整合性を維持することができます。

以下の例では、Salesforce入力データに既存のプレパレーションを適用し、Redshiftデータベースにその結果を出力するジョブを示します。

このプレパレーションは、名前、電話番号、メールアドレスなどの基本的な顧客情報を格納したデータセット上に作成されています。名前エントリのフォーマットエラーを排除し、電話番号から無効な値を削除するためにいくつかのステップが適用されています。

プレパレーション中に2つのバージョンが作成されました: 1つは最初の2つのステップの後に、もう1つは3番目のステップの後に。

始める前に

  • 少なくとも1つのバージョンを持つプレパレーションをTalend Cloud Data Preparation内で作成済みであること。この場合、既存のプレパレーションはcontacts cleansingといいます。
  • Salesforceからインポートしたデータのスキーマは、最初にプレパレーションを作成するために使用したデータセットと同じスキーマである必要があります。

手順

  1. 新しい標準ジョブまたはSparkジョブをTalend Studioで作成します。
  2. Talend StudioのデザインワークスペースでtSalesforceInputtDataprepRun、tRedshiftOutputを追加し、2つの[Row] (行) > [Main] (メイン)リンクを使ってリンクします。
  3. tSalesforceInputコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。

    tSalesforceInputコンポーネントのスキーマは必ず、tDataprepRunコンポーネントによって予測されるスキーマに一致させてください。

  4. tDataprepRunコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。
  5. Talend Cloud Data Preparationの接続情報を入力します。
  6. [Choose an existing preparation] (プレパレーションを選択)をクリックして、Talend Cloud Data Preparationで使用可能なプレパレーションのリストを表示します。
  7. 適用するプレパレーションのバージョンを含んだcontacts cleansingの前のチェックボックスを選択して、[OK]をクリックします。
  8. [choose a version] (バージョンを選択)をクリックして、プレパレーションの使用可能なバージョンのリストからバージョンを選択します。この場合、バージョン1を選択します。

    ジョブでは、選択されたプレパレーションの現在の状態がデフォルトで使用されます。共同作業の状況で、一定のバージョンの代わりに現在の状態を使用すると、知らないうちに誰かがプレパレーションに変更を加える可能性があります。その結果、ジョブの結果がどうなるのか正確に把握できなくなります。このような理由から、ジョブでバージョンを使用した方が安全です。

  9. [Fetch Schema] (スキーマを取得)をクリックして、contacts cleansingのスキーマを取得します。
  10. tRedshiftOutputコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。
  11. ジョブを保存し、[F6]を押して実行します。

タスクの結果

選択したバージョンのプレパレーションに含まれるすべてのプレパレーションステップが、ジョブのフロー内で直接データに適用されます。