Sparkジョブの作成 - Cloud - 7.3

Talend Studioユーザーガイド

Version
Cloud
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2024-02-13
対象製品...

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Integration パースペクティブの[Repository] (リポジトリー)ツリービューにある[Job Designs] (ジョブデザイン)ノードから、または[Job Designs] (ジョブデザイン)ノードの下にある[Big Data Batch] (ビッグデータバッチ)ノードから始めることができます。

2つのアプローチは似ています。次の手順は、[Job Designs] (ジョブデザイン)ノードからSparkジョブを作成する方法を示すものです。

手順

  1. [Job Designs] (ジョブデザイン)ノードを右クリックし、コンテキストメニューから[Create Big Data Batch Job] (ビッグデータバッチジョブを作成)を選択します。
    [New Big Data Batch Job] (新しいビッグデータバッチジョブ)ウィザードが表示されます。
  2. [Framework] (フレームワーク)ドロップダウンリストから[Spark]を選択します。
  3. [Name] (名前)[Purpose] (目的)[Description] (説明)の各フィールドにそれぞれ情報を入力します。ジョブの名前は必須です。
    入力が終わると[Finish] (終了)ボタンが有効になります。
  4. ジョブのバージョンを変更する必要がある場合は、[Version] (バージョン)フィールドの横の[M][m]ボタンをクリックして変更を行います。
    ジョブのステータスを変更する必要がある場合は、[Status] (ステータス)フィールドのドロップダウンリストから選択します。
    変更不可能なフィールドの情報を編集する必要がある場合は、メニューバーで[File] (ファイル)> [Edit Project properties] (プロジェクトプロパティを編集)と選択して[Project Settings] (プロジェクト設定)ダイアログボックスを開き、必要な変更を行います。
  5. [Finish] (終了)をクリックしてウィザードを閉じ、変更を有効にします。
    Studioのワークスペースに空のジョブが開き、Sparkで利用可能なコンポーネントが[Palette] (パレット)に表示されます。

タスクの結果

[Repository] (リポジトリー)ツリービューで、作成されたこのSparkジョブが、[Job Designs] (ジョブデザイン)の下にある[Big Data Batch] (ビッグデータバッチ)ノードの下に自動的に表示されます。

使用するコンポーネントを[Palette] (パレット)からワークスペースに配置し、標準ジョブの場合と同様じ方法でリンクや設定を行ってSparkジョブをデザインします。また、[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、使用するSparkクラスターへの接続をセットアップする必要があります。

対象製品:

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Spark Streamingジョブを作成する場合も、同じオペレーションを繰り返します。唯一異なる手順は、[Job Designs] (ジョブデザイン)ノードを右クリックした後でコンテキストメニューから[Create Big Data Streaming Job] (ビッグデータストリーミングジョブの作成)を選択し、表示される[New Big Data Streaming Job] (新しいビッグデータストリーミングジョブ)ウィザードで、[Framework] (フレームワーク)ドロップダウンリストからSpark Streamingを選択する点だけです。

Sparkジョブを作成した後は、軽量の依存項目オプションを使ってそのジョブの実行時間を短縮できます。このオプションによってライブラリーの数がTalendライブラリーのみに減らされるため、ジョブの実行方法に影響します。また、依存項目はすべて残りますが、実行時にクラスターに送信されることはありません。そのため、依存項目に関する問題(競合している、署名がない、JARのバージョンが間違っている、JARがないなど)の問題を回避できます。[Run] (実行)ビューで[Spark configuration] (Spark設定)タブをクリックし、[Use lightweight dependencies] (軽量の依存項目を使用)チェックボックスをオンにします。[Use custom classpath] (カスタムクラスパスを使用)チェックボックスをオンにし、使用したいJARをコンマ区切りの正規表現構文で入力することで、Clouderaのデフォルトのものとは異なるクラスパスを使用することもできます。このオプションを利用できるディストリビューションは次のとおりです。
  • Amazon EMR 6.2.0
  • Cloudera CDH 6.1.1、およびその他の6.xバージョン(ダイナミックディストリビューションを通じて互換性あるもの)
  • Cloudera CDH 7.1.1、およびその他の7.1.xバージョン(ダイナミックディストリビューションを通じて互換性あるもの)

Sparkジョブを[Local] (ローカル)モード以外のモードで実行する必要がある場合は、同じジョブ内にストレージコンポーネント(通常はtHDFSConfigurationコンポーネント)が必要です。これは、Sparkがこのコンポーネントを使用して、ジョブに依存するjarファイルの転送先のファイルシステムに接続できるようにするためです。

ジョブスクリプトビューにジョブスクリプトを書き込み、ジョブを生成することで、これらのタイプのジョブを作成することも可能です。ジョブスクリプトの使い方の詳細は、ジョブスクリプトリファレンスガイドをご覧ください。