Apache Spark BatchのtLoopプロパティ - Cloud - 8.0

Orchestration (インテグレーション)

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > プロセス制御コンポーネント
データガバナンス > サードパーティーシステム > プロセス制御コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > プロセス制御コンポーネント
Last publication date
2024-03-07

これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtLoopを設定するために使われます。

Spark BatchtLoopコンポーネントは、オーケストレーション化ファミリーに属しています。

このフレームワークのコンポーネントは、すべてのサブスクリプションベースのビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。

基本設定

ループタイプ

実行するループのタイプを選択します:ForまたはWhileのいずれか。

For: タスクは定義された反復回数だけ実行されます。

While: タスクまたはジョブは、条件が満たされるまで実行されます。

For

  • From: ループを開始する最初のインスタンス番号を入力します。ステップ2で開始インスタンス数2の場合、インスタンス数が偶数の時にループが開始します。

  • To: ループが終了する最後のインスタンス番号を入力します。

  • [Step] (ステップ): ループを増分するステップを入力します。ステップ2は、2番目のインスタンスごとに、という意味です。

  • [Values are increasing] (値は増加し続ける): このチェックボックスを選択すると、増加シーケンスのみが許可されます。このチェックボックスをオフにすると、減少シーケンスのみが許可されます。

While

  • [Declaration] (宣言): ループを開始する式を入力します。

  • [Condition] (条件): ループが終了するために満たす必要がある条件を入力します。

  • [Iteration] (反復): 各ループで実行される操作を示す式を入力します。

グローバル変数

グローバル変数

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

CURRENT_VALUE: 現在の値。Forタイプのループのみで利用できます。これはFlow変数で、整数を返します。

CURRENT_ITERATION: 現在の繰り返し処理のシーケンス番号。これはFlow変数で、整数を返します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。

変数の詳細は、コンテキストと変数を使用をご覧ください。

使用方法

使用ルール

tLoopは、開始コンポーネントとして使用されるコンポーネントで、次のコンポーネントと反復接続になっている場合のみ使用できます。

For

From (差出人)

 

[To] (宛先)

 

手順

 

[Values are increasing] (値は増加し続ける)

While

[Declaration] (宣言)

 

条件

 

[Iteration] (反復)

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。