Apache Spark BatchのtLoopプロパティ - 7.3

Orchestration (Integration)

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > プロセス制御コンポーネント
データガバナンス > サードパーティーシステム > プロセス制御コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > プロセス制御コンポーネント

このプロパティはSpark Batchジョブフレームワークで実行されているtLoopを設定するために使います。

Spark Batch tLoopコンポーネントはプロセス制御ファミリーのコンポーネントです。

このフレームワーク内のコンポーネントは、ビッグデータ対応のサブスクリプションTalend 製品すべて、およびTalend Data Fabricで使用できます。

基本設定

ループタイプ

実行するループのタイプを選択します:ForまたはWhileのいずれか。

For: タスクは定義された反復回数だけ実行されます。

While: タスクまたはジョブは、条件が満たされるまで実行されます。

For

  • From: ループを開始する最初のインスタンス番号を入力します。ステップ2で開始インスタンス数2の場合、インスタンス数が偶数の時にループが開始します。

  • To: ループが終了する最後のインスタンス番号を入力します。

  • [Step] (ステップ): ループをインクリメントするステップを入力します。ステップ2は、2番目のインスタンスごとに、という意味です。

  • [Values are increasing] (値が増加しつつあります): このチェックボックスをオンにすると、増加するシーケンスのみが許可されます。このチェックボックスをオフにすると、減少するシーケンスのみが許可されます。

While

  • [Declaration] (宣言): ループを開始する式を入力します。

  • [Condition] (条件): ループが終了するために満たす必要がある条件を入力します。

  • [Iteration] (反復): 各ループで実行される操作を示す式を入力します。

[Global Variables] (グローバル変数)

[Global Variables] (グローバル変数)

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合にのみ機能します。

CURRENT_VALUE: 現在の値。Forタイプのループのみで使用できます。これはFlow変数で、整数を返します。

CURRENT_ITERATION: 現在の繰り返し処理のシーケンス番号。これはFlow変数で、整数を返します。

Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、『 Talend Studio ユーザーガイド』を参照してください。

使用方法

使用ルール

tLoopは、開始コンポーネントとして使用されるコンポーネントで、次のコンポーネントと反復接続になっている場合のみ使用できます。

For

From (差出人)

 

[To] (宛先)

 

手順

 

[Values are increasing] (値が増加しつつあります)

While

[Declaration] (宣言)

 

条件

 

[Iteration] (反復)

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark Configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • Quboleを使用する場合は、ジョブにtS3Configurationを追加し、QuboleでS3システム内に実際のビジネスデータを書き込みます。tS3Configurationを使用しないと、このビジネスデータはQubole HDFSシステムに書き込まれ、クラスターをシャットダウンすると破棄されます。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使用されているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): tHDFSConfigurationまたはtS3Configurationなど、クラスターで使用されているファイルシステムに対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。