Spark Batchジョブを作成 - 8.0

Talend Data Fabric 入門ガイド

Version
8.0
Language
日本語 (日本)
EnrichDitaval
Data Fabric
Product
Talend Data Fabric
Module
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
Content
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
Apache Spark BatchのTalendジョブでは、Talend Sparkコンポーネントにアクセスして使用し、データの読み取り、変換、または書き込みを行うApache Sparkプログラムを視覚的に設計できます。

始める前に

  • Talend Studioを起動し、 Integration パースペクティブを開いていること。

手順

  1. [Repository] (リポジトリー)ツリービューで[Job Designs] (ジョブデザイン)ノードを展開し、[Big Data Batch] (ビッグデータバッチ)ノードを右クリックして、コンテキストメニューから[Create folder] (フォルダーの作成)を選択します。
  2. [New Folder] (新規フォルダー)ウィザードでジョブフォルダーにgetting_startedという名前を付け、[Finish] (終了)をクリックしてフォルダーを作成します。
  3. getting_startedフォルダーを右クリックし、[Create folder] (フォルダーの作成)をもう一度選択します。
  4. [New Folder] (新規フォルダー) ウィザードで新しいフォルダーに[spark] (スパーク)という名前を付け、[Finish] (終了)をクリックしてフォルダーを作成します。
  5. sparkフォルダーを右クリックし、[Create Big Data Batch Job] (ビッグデータバッチジョブの作成)を選択します。
  6. [New Big Data Batch Job] (新しいビッグデータバッチジョブ)ウィザードで、[Framework] (フレームワーク)ドロップダウンリストから[Spark]を選択します。
  7. このSpark Batchジョブの名前とその他の有用な情報を入力します。

    たとえば、[Name] (名前)フィールドにaggregate_movie_director_sparkと入力します。

タスクの結果

Spark Batchコンポーネント[Palette] (パレット)が使用できるようになりました。この[Palette] (パレット)、および[Repository] (リポジトリー)内の[Metadata] (メタデータ)ノードを活用して、ジョブの設計を開始できます。