メイン コンテンツをスキップする 補完的コンテンツへスキップ

Sparkコンポーネントをドロップしてリンク

Apache Spark Batchフレームワーク内で実行されるデータ変換プロセスを設計するために、ジョブのワークスペース内でSpark Batchコンポーネントのオーケストレーションを行います。

始める前に

  • Studio Talendを起動し、 Integration パースペクティブを開いていること。

  • 空のジョブがSpark Batchジョブを作成 (英語のみ)の説明に従って作成され、ワークスペース内に開いていること。

手順

  1. ジョブ内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントはtFileInputDelimitedコンポーネントが2つ、tMapコンポーネントが1つ、tFileOutputParquetコンポーネントが2つ、tAzureFSConfigurationコンポーネントが1つです。
    • tFileInputDelimitedコンポーネントは、映画データと監督データをDatabricksビッグデータプラットフォームのDBFSファイルシステムから現在のジョブのデータフローにロードするために使用されます。

    • tMapコンポーネントは入力データの変換に使用されます。

    • tFileOutputParquetコンポーネントは、Azure Data Lake Storageシステムのディレクトリーに結果を書き込みます。

    • tAzureFSConfigurationコンポーネントは、Azure Data Lake Storageシステムへの接続に必要な情報を提供します。
  2. 2つのtFileInputDelimitedコンポーネントのうち1つをダブルクリックしてこのラベルを編集可能にし、movieと入力してこのコンポーネントのラベルを変更します。
  3. directorのもう一方のラベルtFileInputDelimitedにも同じ手順を実行します。
  4. movieのラベルが付いたtFileInputDelimitedコンポーネントを右クリックし、コンテキストメニューから[Row] (行) > [Main] (メイン)の順に選択し、tMapをクリックしてtMapに接続します。これは、映画データがtMapに送信される際のメインリンクです。
  5. 同様に、[Row] (行) > [Main] (メイン)リンクを使用し、director tFileInputDelimitedコンポーネントをtMapに接続します。これは、ディレクターデータがルックアップデータとしてtMapに送信される際の[Lookup] (ルックアップ)リンクです。
  6. 同様に、[Row] (行) > [Main] (メイン)リンクを使用してtMapコンポーネントをtFileOutputParquetコンポーネントに接続し、ポップアップウィザードで、このリンクにout1という名前を付け、[OK]をクリックしてこの変更を確定します。
  7. これらのオペレーションを繰り返し、[Row] (行) > [Main] (メイン)リンクを使用してtMapコンポーネントをtFileOutputDelimitedコンポーネントに接続し、rejectという名前を付けます。

タスクの結果

ワークスペースではジョブ全体が以下のように表示されます。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。