Talend Studioでは、プレパレーションのバージョンをデータインテグレーションまたはビッグデータジョブ内で使用できます。
Talend Studioでは、tDataprepRunコンポーネントにより、プレパレーションまたはそのバージョンのいずれかを再使用して、同じモデルのデータに適用できます。
注: でtDataprepRunTalend Cloud Data Preparationコンポーネントを使用するには、Talend Studioバージョン7.1以上が必要です。
プレパレーションをその現在の状態で使用することもできますが、特定のバージョンを使用すれば、プレパレーションがまだ作業中でも、ジョブで使用されるプレパレーションの状態を常に同じに保つことができるため、より高い整合性を維持できます。
以下の例では、Salesforce入力データに既存のプレパレーションを適用し、Redshiftデータベースにその結果を出力するジョブを示します。
このプレパレーションは、基本的な顧客情報(名前、電話番号、メールアドレスなど)が含まれているデータセットに作成されたものです。名前エントリーのフォーマットエラーを排除し、電話番号から無効な値を削除するためにいくつかのステップが適用されています。
プレパレーション中に2つのバージョン(1つは最初の2つのステップの後に、もう1つは3番目のステップの後に)が作成されました。
始める前に
- 少なくとも1つのバージョンを持つプレパレーションをTalend Cloud Data Preparation内で作成済みであること。この場合、既存のプレパレーションはcontacts cleansingです。
- Salesforceからインポートしたデータのスキーマは、最初にプレパレーションの作成に使ったデータセットと同じスキーマであることが必要です。
手順
-
新しい標準ジョブまたはSparkジョブをTalend Studioで作成します。
-
Talend StudioのデザインワークスペースでtSalesforceInput、tDataprepRun、tRedshiftOutputを追加し、2つのリンクを使ってリンクします。
-
tSalesforceInputコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。
tSalesforceInputコンポーネントのスキーマは必ず、tDataprepRunコンポーネントによって予測されるスキーマに一致させてください。
-
tDataprepRunコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。
-
Talend Cloud Data Preparationの接続情報を入力します。
-
[Choose an existing preparation] (既存のプレパレーションを選択)をクリックして、Talend Cloud Data Preparationで使用可能なプレパレーションのリストを表示します。
-
適用するプレパレーションのバージョンを含んだcontacts cleansingの前のチェックボックスをオンにして、[OK]をクリックします。
-
[choose a version] (バージョンを選択)をクリックして、プレパレーションの使用可能なバージョンのリストからバージョンを選択します。この場合、バージョン1を選択します。
ジョブでは、選択されたプレパレーションの現在の状態がデフォルトで使用されます。共同作業の状況で、一定のバージョンの代わりに現在の状態を使用すると、知らないうちに誰かがプレパレーションに変更を加える可能性があります。その結果、ジョブの結果がどうなるのか正確に把握できなくなります。このような理由から、ジョブでバージョンを使用した方が安全です。
-
[Fetch Schema] (スキーマを取得)をクリックして、contacts cleansingのスキーマを取得します。
-
tRedshiftOutputコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。
-
ジョブを保存し、F6を押して実行します。
タスクの結果
選択したバージョンのプレパレーションに含まれるすべてのプレパレーションステップが、ジョブのフロー内で直接データに適用されます。