Sparkコンポーネントをドロップしてリンク - 8.0

Talend Data Fabric 入門ガイド

Version
8.0
Language
日本語 (日本)
EnrichDitaval
Data Fabric
Product
Talend Data Fabric
Module
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
Content
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
Apache Spark Batchフレームワーク内で実行されるデータ変換プロセスを設計するために、ジョブのワークスペース内でSpark Batchコンポーネントのオーケストレーションを行います。

始める前に

  • Talend Studioを起動し、 Integration パースペクティブを開いていること。

  • 空のジョブがSpark Batchジョブを作成の説明に従って作成され、ワークスペース内に開いていること。

手順

  1. ジョブ内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントはtFileInputDelimitedコンポーネントが2つ、tMapコンポーネントが1つ、tFileOutputParquetコンポーネントが2つ、tAzureFSConfigurationコンポーネントが1つです。
    • tFileInputDelimitedコンポーネントは、映画データと監督データをDatabricksビッグデータプラットフォームのDBFSファイルシステムから現在のジョブのデータフローにロードするために使用されます。

    • tMapコンポーネントは入力データの変換に使用されます。

    • tFileOutputParquetコンポーネントは、Azure Data Lake Storageシステムのディレクトリーに結果を書き込みます。

    • tAzureFSConfigurationコンポーネントは、Azure Data Lake Storageシステムへの接続に必要な情報を提供します。
  2. 2つのtFileInputDelimitedコンポーネントのうち1つをダブルクリックしてこのラベルを編集可能にし、movieと入力してこのコンポーネントのラベルを変更します。
  3. directorのもう一方のラベルtFileInputDelimitedにも同じ手順を実行します。
  4. movieのラベルが付いたtFileInputDelimitedコンポーネントを右クリックし、コンテキストメニューから[Row] (行) > [Main] (メイン)の順に選択し、tMapをクリックしてtMapに接続します。これは、動画データがtMapに送信される際のメインリンクです。
  5. 同様に、[Row] (行) > [Main] (メイン)リンクを使用し、director tFileInputDelimitedコンポーネントをtMapに接続します。これは、ディレクターデータがルックアップデータとしてtMapに送信される際の[Lookup] (ルックアップ)リンクです。
  6. 同様に、[Row] (行) > [Main] (メイン)リンクを使用してtMapコンポーネントをtFileOutputParquetコンポーネントに接続し、ポップアップウィザードで、このリンクにout1という名前を付け、[OK]をクリックしてこの変更を確定します。
  7. これらのオペレーションを繰り返し、[Row] (行) > [Main] (メイン)リンクを使用してtMapコンポーネントをtFileOutputDelimitedコンポーネントに接続し、rejectという名前を付けます。

タスクの結果

ワークスペースではジョブ全体が以下のように表示されます。