Apache Spark BatchのtManagePartitionsプロパティ - Cloud - 8.0

Processing (インテグレーション)

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 変換処理コンポーネント
データガバナンス > サードパーティーシステム > 変換処理コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 変換処理コンポーネント
Last publication date
2024-03-05

これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtManagePartitionsを設定するために使われます。

Spark BatchtManagePartitionsコンポーネントは、変換処理ファミリーに属しています。

このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。

基本設定

[Number of partitions] (パーティションの数) 入力データセットを分割するパーティション数を入力します。
[Partitioning strategy] (パーティショニング戦略) データセットに適用するパーティショニング戦略をドロップダウンリストから選択します。
  • [Coalesce] (融合): パーティションの数を減らします。
  • [Repartition] (再パーティショニング): パーティションの数を増減させます。
  • [Auto] (自動): 適用にふさわしい戦略を計算します。
[Partitioning with range] (範囲付きのパーティショニング) このチェックボックスを選択すると、カラム値の範囲に基づいてデータセットにパーティションを適用できます。このパラメータを使用するためには、少なくともカラムを1つ指定する必要があります。
[Use custom partitioner] (カスタムパーティショナーを使用) Talend Studio外からインポートする必要があるSparkパーティショナーを使う場合は、このチェックボックスをオンにします。たとえば、自分で開発したパーティショナーです。この状況では、次の情報を提供する必要があります。
  • [Fully qualified class name] (完全修飾クラス名): インポートするパーティショナーの完全修飾クラス名を入力します。

  • [JAR name] (JAR名): 追加する行数と同じ回数だけ[ + ]ボタンをクリックします。各行で[...]ボタンをクリックして、このパーティショナークラスとその依存jarファイルを含むjarファイルをインポートします。

このパラメーターは、[Partitioning strategy] (パーティショニング戦略)ドロップダウンリストから[Repartition] (再パーティショニング)を選択した場合のみ使用できます。

[Use column(s) as key(s) for partitioning] (パーティショニングでカラムをキーとして使用) パーティショニングでキーとして使うカラムを選択します。

このパラメーターは、[Partitioning strategy] (パーティショニング戦略)ドロップダウンリストから[Repartition] (再パーティショニング)を選択した場合のみ使用できます。[Use a custom partitioner] (カスタムパーティショナーを使用)チェックボックスを選択した場合、このパラメーターは使用できません。

[Sort within partitions] (パーティション内でソート) 各パーティションでレコードをソートする場合は、このチェックボックスをオンにします。
  • [Natural order] (自然順序): キーが自然な順序(アルファベット順など)にソートされます。

  • [Custom comparator] (カスタムコンパレーター): キーをソートするためにカスタムプログラムが使えます。

    [Fully qualified class name] (完全修飾クラス名)フィールドにインポートするコンパレーターの完全修飾クラス名を入力し、[JAR name] (JAR名)テーブルにロードするJARファイルを追加する必要があります。

この機能は、パーティションに複数の異なるキー値が含まれている場合に役立ちます。

グローバル変数

ERROR_MESSAGE

エラー発生時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。

使用方法

使用ルール

このコンポーネントは中間ステップとして使用されます。

このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。