tGreenplumGPLoad標準プロパティ - 7.3

Greenplum

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > DBコンポーネント > Greenplum
データガバナンス > サードパーティーシステム > DBコンポーネント > Greenplum
データクオリティとプレパレーション > サードパーティーシステム > DBコンポーネント > Greenplum

このプロパティはStandardジョブフレームワークで実行されているtGreenplumGPLoadを設定するために使います。

Standard tGreenplumGPLoadコンポーネントはデータベースファミリーのコンポーネントです。

このフレームワーク内のコンポーネントは、すべてのTalend製品で使用できます。

基本設定

[Property type] (プロパティタイプ)

[Built-in] (組み込み)または[Repository] (リポジトリー)のいずれかで次の設定を行います

  • [Built-in] (組み込み): プロパティデータは一元的に保管されません。

  • [Repository] (リポジトリー): プロパティが保管されるリポジトリーファイルを選択します。後続フィールドは、取得されたデータを使用して自動的に入力されます。

[Host] (ホスト)

データベースサーバーのIPアドレス。

[Port] (ポート)

DBサーバーのリスニングポート番号。

[Database] (データベース)

Greenplumデータベースの名前。

[Schema] (スキーマ)

スキーマの正確な名前。

[Username] (ユーザー名)[Password] (パスワード)

DBユーザー認証データ。

パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、[OK] をクリックして設定を保存します。

[Table] (テーブル)

データが挿入されるテーブルの名前。

[Action on table] (テーブルへのアクション)

データをロードする前に、定義済みのテーブルで次の操作の1つを実行できます。

[None] (なし): 操作は行われません。

[Clear table] (テーブルのクリア): データがロードされる前にテーブルのコンテンツが削除されます。

[Create table] (テーブルの作成): テーブルが存在しないため、作成します。

[Create table if not exists] (存在しない場合はテーブルを作成): テーブルが存在しない場合は作成されます。

[Drop and create table] (テーブルの削除と作成): テーブルが削除され、再作成されます。

[Drop table if exist and create] (存在する場合はテーブルを削除して作成): テーブルが既に存在する場合は削除されて、再作成されます。

[Truncate table] (テーブルの切り捨て): テーブルの内容が削除されます。操作をロールバックすることはできません。

[Action on data] (データへのアクション)

定義されたテーブルのデータでは、以下の操作を実行できます:

[Insert] (挿入): テーブルに新しいエントリを追加します。重複が見つかった場合、ジョブは停止されます。

[Update] (更新): 既存のエントリーが変更されます。

[Merge] (マージ): テーブルを更新したり、テーブルにデータを追加したりします。

警告:

[Update] (更新)操作と[Merge] (マージ)操作のベースとなる主キーとして、少なくとも1つのカラムを指定する必要があります。それには、[Edit Schema] (スキーマを編集)をクリックし、主キーに指定するカラムの横にあるチェックボックスをオンにします。[Update] (更新)/[Merge options] (マージオプション)を定義するには、[Match Column] (マッチカラム)カラムで、[Update] (更新)操作と[Merge] (マージ)操作のベースとして使うカラム名に対応するチェックボックスをオンにして、[Update Column] (カラムの更新)カラムで、更新するカラム名に対応するチェックボックスをオンにします。[Update condition] (更新条件)を定義するには、データの更新に使う条件を入力します。

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

  • [Built-in] (組み込み): そのコンポーネントのみのスキーマを作成して、ローカルに保存します。

  • [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを使用できます。

  • [View schema] (スキーマの表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続を更新): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーのコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

[Data file] (データファイル)

使うデータファイルへの完全パス。このコンポーネントをスタンドアロンモードで使う場合、これはデータベースにロードする既存のデータファイルの名前です。このコンポーネントが入力フローを使って接続されている場合、これは、後でデータベースにロードするためにgploadで使うために、生成されて着信データと共に書き込まれるファイルの名前です。このフィールドは、[Use named-pipe] (名前付きパイプの使用)チェックボックスをオンにすると非表示になります。

[Populate column list based on the schema] (スキーマに基づくカラムリストに入力)

このオプションを選択すると、スキーマで定義されたカラムがYAMLファイルに追加されます。これはターゲットテーブルに余分なカラムがある場合(ステージングテーブルにプライマルキーのみロードする場合など)に非常に便利です。このオプションを選択すると、YAMLファイルにCOLUMNS:セクションが生成されます。

注: このオプションは、TalendのR2021-01以降のStudio月次アップデートをインストールした時のみ利用できます。詳細は管理者にお問い合わせください。

[Use named-pipe] (名前付きパイプを使う)

名前付きパイプを使うには、このチェックボックスをオンにします。このオプションは、コンポーネントが入力フローに接続されている場合にのみ適用されます。このチェックボックスがオンの場合、データファイルは生成されず、データは名前付きパイプを介してgploadに転送されます。このオプションにより、LinuxとWindowsの両方でパフォーマンスが大幅に向上します。

注:

名前付きパイプモードのこのコンポーネントは、JNIインターフェイスを使って、任意のWindowsプラットフォームで名前付きパイプの作成と書き込みを行います。したがって、関連するJNI DLLへのパスは、Javaライブラリーパス内で設定する必要があります。コンポーネントには、32ビットと64ビットの両方のオペレーティングシステム用の2つのDLLが付属しています。これらのDLLは、コンポーネントと共にStudioに自動的に提供されています。

[Named-pipe name] (名前付きパイプの名前)

使う名前付きパイプの名前を指定します。入力した名前が有効であることをご確認ください。

[Die on error] (エラー発生時に強制終了)

このチェックボックスはデフォルトで選択されています。エラーの発生した行をスキップし、エラーが発生していない行の処理を完了するには、このチェックボックスをオフにします。必要に応じて[Row] (行) > [Rejects] (リジェクト)リンクを使用してエラー発生時に行を取得できます。

詳細設定

[DB driver] (DBドライバー)

ドロップダウンリストから目的のデータベースドライバー(GreenplumPostgreSQLのいずれか)を選択します。デフォルトではGreenplumに設定されています。PostgreSQL用のデータベースドライバーは非推奨であり、R2021-01 Studio月次アップデートと今後のリリースでは更新されませんのでご注意ください。

注: このオプションは、TalendのR2021-01以降のStudio月次アップデートをインストールした場合にGreenplumにデフォルト設定されます。詳細は管理者にお問い合わせください。

[Additional Parameters] (追加のパラメーター)

作成する接続に追加のパラメーターを指定します。

[Use existing control file (YAML formatted)] (既存の制御ファイルを使う(YAML形式))

コンポーネントですべてのオプションを明示的に指定する代わりに、gploadユーティリティで使う制御ファイルを提供するには、このチェックボックスをオンにします。このチェックボックスをオンにすると、[Data file] (データファイル)とその他のgpload関連オプションは適用されなくなります。制御ファイルの作成については、Greenplumのgploadマニュアルを参照してください。

[Control file] (制御ファイル)

使う制御ファイルのパスを二重引用符で囲んで入力するか、[...]をクリックして制御ファイルを参照します。このオプションは-f引数を介してgploadユーティリティに渡されます。

[CSV mode] (CSVモード)

このチェックボックスをオンにすると、[Escape char] (エスケープ文字)[Text enclosure] (テキストエンクロージ​ャー)などCSV固有のパラメーターが含まれます。

[Field separator] (フィールド区切り)

フィールドを区切るために使う文字、文字列、または正規表現。

警告:

これはgploadのdelim引数です。デフォルト値は|です。パフォーマンスを向上させるには、デフォルト値を使います。

[Escape char] (エスケープ文字)

エスケープする行の文字。

[Text enclosure] (テキストエンクロージ​ャー)

テキストを囲むために使用する文字。

[Header (skips the first row of data file)] (ヘッダー(データファイルの先頭行をスキップ))

このチェックボックスをオンにすると、データファイルの最初の行がスキップされます。

[Additional options] (その他のオプション)

gpload引数を対応するテーブルに設定します。[+]を必要な回数だけクリックしてして、テーブルに引数を追加します。[Parameter] (パラメーター)フィールドをクリックして、リストから引数を選択します。次に、対応する[Value] (値)フィールドをクリックして、値を引用符で囲んで入力します。

  • LOCAL_HOSTNAME: gploadが実行されているローカルマシンのホスト名またはIPアドレス。このマシンが複数のネットワークインターフェイスカード(NIC)で設定されている場合は、個々のNICのホスト名またはIPを指定して、ネットワークトラフィックがすべてのNICを同時に使えるようにすることが可能です。デフォルトでは、ローカルマシンのプライマリーホスト名またはIPが使われます。
  • [PORT (gpfdist port)] (PORT (gpfdistポート): gpfdistファイルディストリビューションプログラムが使う特定のポート番号。PORT_RANGEを指定して、指定済みの範囲から利用可能なポートを選択することも可能です。PORTPORT_RANGEの両方が定義されている場合は、PORTが優先します。PORTPORT_RANGEがどちらも定義されていない場合は、8000〜9000の使用可能なポートがデフォルトで選択されます。LOCAL_HOSTNAMEで複数のホスト名が宣言されている場合、このポート番号はすべてのホストに使われます。この設定は、すべてのNICを使って特定のディレクトリーにある同じファイルまたはファイルセットをロードする場合に推奨されます。

  • PORT_RANGE: [PORT (gpfdist port)] (PORT (gpfdistポート))の代わりに使って、gploadがgpfdistファイルディストリビューションプログラムのこのインスタンスに利用可能なポートを選択できるポート番号の範囲を指定できます。

  • NULL_AS: null値を表す文字列。デフォルトは、TEXTモードでは\N (バックスラッシュ-N)、CSVモードでは引用符なしの空の値です。この文字列に一致するソースデータアイテムは、すべてnull値と見なされます。

  • FORCE_NOT_NULL: CSVモードでは、指定された各カラムが引用符で囲まれているかのように処理されるため、NULL値ではありません。CSVモードのデフォルトのnull文字列(2つの区切り記号の間に何もない)の場合、このために欠損値が長さゼロの文字列として評価されます。

  • [ERROR_LIMIT (2 or higher)] (エラー制限(2以上)): このロード操作に単一行エラー分離モードを有効にします。有効に設定すると、入力処理中にGreenplumセグメントインスタンスでエラー制限カウントに達しないと、すべての正常な行がロードされ、フォーマットエラーのある入力行は破棄されるか、利用可能な場合はERROR_TABLEで指定したテーブルに記録されます。エラー制限に達すると、フォーマットエラーのある入力行により、ロード操作が中止されます。単一行エラー分離は、フォーマットエラーのあるデータ行にのみ適用されます。たとえば、余分な属性や欠落した属性、不正なデータ型の属性、または無効なクライアントエンコーディングシーケンスなどです。主キー違反などの制約エラーが発生した場合でも、ロード操作は中止されます。このオプションが有効でない場合、ロード操作は最初に発生したエラーで中止されます。

  • ERROR_TABLE: ERROR_LIMITが宣言され、単一行エラー分離モードで実行されている場合は、フォーマットエラーのある行を記録するエラーテーブルを指定します。次に、このエラーテーブルを調べて、ロードされなかったエラー行(ある場合)を確認できます。

  • LOG_ERRORS: TrueまたはFalse、デフォルトではFalseに設定されています。値がTrueであれば、書式設定エラーがある行を内部でログに記録します。詳細は、gploadControl File Format > LOG_ERRORSセクションをご覧ください。
  • MAX_LINE_LENGTH: gploadに渡されるXML変換データでの行の最大長を指定する整数。
  • EXTERNAL_SCHEMA (_ext_stg_objects): gploadで作成される外部テーブルデータベースオブジェクトのスキーマを指定します。[Value] (値)フィールドに、外部テーブルのスキーマの名前を入力します。詳細は、gploadControl File Format > EXTERNALセクションをご覧ください。
  • PRELOAD_TRUNCATEPRELOAD_REUSE_TABLESPRELOAD_STAGING_TABLEPRELOAD_FAST_MATCH: ロード操作の前に行う操作を指定します。詳細は、gploadControl File Format > PRELOADセクションをご覧ください。
  • SQL_BEFORE LOADSQL_AFTER LOAD: ロード操作の前後(またはそのいずれか)に実行するSQLコマンドを設定します。詳細は、gploadControl File Format > SQLセクションをご覧ください。
注: 次のオプションは、TalendのR2021-01以降のStudio月次アップデートをインストールした時のみ利用できます。詳細は管理者にお問い合わせください。
  • LOG_ERRORS
  • MAX_LINE_LENGTH
  • EXTERNAL_SCHEMA (_ext_stg_objects)
  • PRELOAD_TRUNCATEPRELOAD_REUSE_TABLESPRELOAD_STAGING_TABLEPRELOAD_FAST_MATCH
  • SQL_BEFORE LOADSQL_AFTER LOAD

[Log file] (ログファイル)

ディレクトリー内のログファイルへのアクセスパスを参照または入力します。

[Encoding] (エンコーディング)

フィールドにエンコードタイプを手動で定義します。

[Specify gpload path] (gploadパスの指定)

gpload実行可能ファイルへの完全パスを指定するには、このチェックボックスをオンにします。gploadパスがPATH環境変数で指定されていない場合は、このオプションをオンにする必要があります。

[Full path to gpload executable] (gpload実行可能ファイルへの完全パス)

使用中のマシン上のgpload実行可能ファイルへの完全パス。このオプションを選択する代わりに、PATH環境変数でgploadパスを指定することをお勧めします。

[Remove datafile on successful execution] (実行が成功するとデータファイルを削除)

このオプションを選択すると、操作が正しく完了した場合に生成されるデータファイルを削除できます。

注: このオプションは、TalendのR2021-01以降のStudio月次アップデートをインストールした時のみ利用できます。詳細は管理者にお問い合わせください。

[Gzip compress the datafile] (データファイルをGzip圧縮)

このオプションを選択すると、Gzipを使ってデータファイルを圧縮し、元のサイズの50~90%までディスク容量を節約できます。ただし、CPU使用率は増加します。

注: このオプションは、TalendのR2021-01以降のStudio月次アップデートをインストールした時のみ利用できます。詳細は管理者にお問い合わせください。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、コンポーネントレベルでログデータを収集できます。

グローバル変数

[Global Variables] (グローバル変数) 

NB_LINE: 処理された行の数。これはAfter変数で、整数を返します。

GPLOAD_OUTPUT: gploadユーティリティが実行された時の出力情報。これはAfter変数で、文字列を返します。

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合にのみ機能します。

NB_LINE_INSERTED: 正しく挿入された行の数。これはAfter変数で、整数を返します。

NB_LINE_UPDATED: 正しく更新された行の数。これはAfter変数で、整数を返します。

NB_DATA_ERRORS: 発生したエラーの数。これはAfter変数で、整数を返します。

GPLOAD_STATUS: ロード操作のステータス。これはAfter変数で、文字列を返します。

GPLOAD_RUNTIME: ロード操作にかかった時間(ミリ秒)。これはLong型のAfter変数です。

注: 次の変数は、TalendのR2021-01以降のStudio月次アップデートをインストールした時のみ利用できます。詳細は管理者にお問い合わせください。
  • NB_LINE_INSERTED
  • NB_LINE_UPDATED
  • NB_DATA_ERRORS
  • GPLOAD_STATUS
  • GPLOAD_RUNTIME

Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、『 Talend Studio ユーザーガイド』を参照してください。

使用方法

使用ルール

このコンポーネントは、データベースにロードするデータが特定の変換を必要としない場合に主に使います。

このコンポーネントはスタンドアロンコンポーネントまたは出力コンポーネントとして使えます。

制限事項

ライセンスの互換性の問題のため、このコンポーネントの使用に必要な1つ以上のJARが提供されていません。この特定のコンポーネントに不足しているJARをインストールするには、Component (コンポーネント)タブビューの[Install] (インストール)ボタンをクリックします。Studioの Integration パースペクティブの[Modules] (モジュール)タブでも、不足しているすべてのJARを簡単に見つけて追加できます。詳細は、外部モジュールのインストールを参照してください。外部モジュールをインストールする方法の詳細は、Talend Help Center (https://help.talend.com)を参照してください。