tRedshiftUnload標準プロパティ - 7.2

Amazon Redshift

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > Amazonサービス > Amazon Redshift
データガバナンス > サードパーティーシステム > Amazonサービス > Amazon Redshift
データクオリティとプレパレーション > サードパーティーシステム > Amazonサービス > Amazon Redshift

このプロパティはStandardジョブフレームワークで実行されているtRedshiftUnloadを設定するために使います。

Standard tRedshiftUnloadコンポーネントはCloudファミリーとデータベースファミリーのコンポーネントです

このフレームワーク内のコンポーネントは、すべてのTalend製品で使用できます。

基本設定

[Property Type] (プロパティタイプ)

[Built-In] (組み込み)または[Repository] (リポジトリー)のいずれか。

 

[Built-In] (組み込み): プロパティデータは一元的に保存されません。

 

[Repository] (リポジトリー): プロパティが保管されるリポジトリーファイルを選択します。続くデータベース接続フィールドは、取得されたデータを使用して自動的に入力されます。

[Use an existing connection] (既存の接続の使用)

定義済みの接続の詳細を再利用するには、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)で該当する接続コンポーネントをクリックします。

[Host] (ホスト)

データベースサーバーのIPアドレスまたはホスト名を入力します。

[Port] (ポート)

データベースサーバーのリスニングポート番号を入力します。

[Database] (データベース)

データベースの名前を入力します。

[Schema] (スキーマ)

スキーマの名前を入力します。

[Username] (ユーザー名)[Password] (パスワード)

データベースユーザー認証データを入力します。

パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、[OK] をクリックして設定を保存します。

[Additional JDBC Parameters] (追加のJDBCパラメーター)

作成する接続の追加のJDBCプロパティを指定します。プロパティはアンパサンド(&)で区切られ、各プロパティはキー/値ペアです。たとえば、ssl=true & sslfactory=com.amazon.redshift.ssl.NonValidatingFactoryになります。これは、SSLを使用して接続が作成されることを意味します。

[Table Name] (テーブル名)

データが読み取られるテーブルの名前を入力します。

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

 

[Built-in] (組み込み): そのコンポーネントのみのスキーマを作成して、ローカルに保存します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

 

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを使用できます。

  • [View schema] (スキーマの表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続を更新): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーのコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

[Query Type] (クエリータイプ)[Query] (クエリー)

スキーマ定義と一致させるように、フィールドの順序に特に注意を払いつつ、データベースクエリーを入力します。

クエリー内の単純な引用符をそれぞれダブルエスケープします。例:
SELECT name, birth,\"Add\" FROM my_table WHERE birth between \\'2018-01-01 00:00:00\\' and \\'2019-01-01 00:00:00\\'

[Guess Query] (クエリーの推測)

ボタンをクリックして、[Query] (クエリー)フィールドのテーブルスキーマに対応するクエリーを生成します。

[Access Key] (アクセスキー)

AWSアカウントを一意に識別するアクセスキーIDを指定します。アクセスキーとアクセスシークレットを取得する方法は、『AWSアクセスキーの取得』を参照してください。

[Secret Key] (シークレットキー)

シークレットアクセスキーを指定します。シークレットアクセスキーは、アクセスキーと組み合わせてセキュリティ認証情報を構成します。

シークレットキーを入力するには、シークレットキーフィールドの横の[...]ボタンをクリックし、ポップアップダイアログボックスにシークレットキーを二重引用符の間に入力し、[OK] をクリックして設定を保存します。

[Assume Role] (ロールを引き受け)

このチェックボックスをオンにして、新たに引き受けたロールセッションの作成に使用する以下のパラメーターに値を指定します。

  • [IAM Role ARNs chains] (IAMロールARNチェーン): 連結された一連のロール。クラスターがリソースにアクセスするために引き受けることのできる、他のアカウントに属している場合があります。

    最大10のロールを連結できます。

  • [Role ARN] (ロールARN): 引き受けるロールのARN (Amazonリソース名)。

IAMロールARNチェーンの詳細は、[Authorizing Redshift service] (Redshiftサービスの承認)を参照してください。

[Bucket] (バケット)

データーのアンロード先のAmazon S3バケットの名前、つまり最上位のフォルダーを入力します。

[Key prefix] (キープレフィックス)

Amazon S3のアンロードファイルの名前プレフィックスを入力します。デフォルトでは、アンロードファイルはRedshiftクラスターのスライスごとに書き込まれ、ファイル名は次の形式で書き込まれます: <object_path>/<name_prefix><slice-number>_part_<file-number>

詳細設定

[File type] (ファイルタイプ)

リストからAmazon S3のアンロードファイルのタイプを選択します。

  • [Delimited file or CSV] (区切り記号付きファイルまたはCSV): 区切り記号付き/CSVファイル。

  • [Fixed width] (固定幅): 固定幅ファイル。

[Fields terminated by] (フィールド区切り記号)

フィールドを区切るための文字を入力します。

このフィールドは、[Delimited file or CSV] (区切り記号付きファイルまたはCSV)[File type] (ファイルタイプ) のリストから選択されている場合にのみ表示されます。

[Enclosed by] (引用符)

フィールドが引用符で囲まれているペア内の文字を選択します。

このリストは、[Delimited file or CSV] (区切り記号付きファイルまたはCSV)[File type] (ファイルタイプ)リストから選択されている場合にのみ表示されます。

[Fixed width mapping] (固定長項目マッピング)

ユーザー定義のカラムラベル、および二重引用符の間のカラム幅を指定する文字列を入力します。文字列の形式は次のとおりです。

ColumnLabel1:ColumnWidth1,ColumnLabel2:ColumnWidth2,...

文字列内のカラムラベルとテーブルカラム名の間には関係がなく、テキスト文字列または整数のどちらも使用できます。ラベル/幅のペアの順序は、テーブルカラムの順序と正確に一致している必要があります。

このフィールドは、[File type] (ファイルタイプ)リストから[Fixed width] (固定幅)が選択されている場合にのみ表示されます。

[Compressed by] (圧縮方式)

このチェックボックスをオンにして、表示されたリストからファイルの圧縮タイプを選択します。

[Encrypt] (暗号化)

Amazon S3のクライアント側の暗号化を使ってアンロードファイルを暗号化するには、このチェックボックスをオンにします。[Encryption key] (暗号化キー)フィールドが表示されたら、アンロードファイルの暗号化に使う暗号化キーを入力します。base64でエンコードされたAES 128ビットまたはAES 256ビットのエンベロープキーのみサポートされています。詳細は、暗号化されたデータファイルをアンロードするを参照してください。

[Specify null string] (null文字列を指定)

このチェックボックスをオンにして、表示されたリストから、アンロードファイルのnull値を表す文字列を選択します。

[Escape] (エスケープ)

区切り記号付きのアンロードファイルのCHARカラムとVARCHARカラムで、次の文字のすべての出現の前にエスケープ文字(\)を置くには、このチェックボックスをオンにします: 改行(\n)、キャリッジリターン(\r)、アンロードされるデータに指定された区切り文字、エスケープ文字(\)、引用文字("または ')。

[Overwrite s3 object if exist] (S3オブジェクトが存在したら上書き)

既存のAmazon S3オブジェクトファイルを上書きするには、このチェックボックスをオンにします。

[Parallel] (並列)

Redshiftクラスター内のスライスの数に応じて、Amazon S3上の複数のアンロードファイルに並行してデータを書き込むには、このチェックボックスをオンにします。

JDBC url
Amazon Redshiftデーターベースへのアクセス方法を[JDBC url] (JDBC URL) ドロップダウンリストから選択します。
  • [Standard] (標準): Redshiftデータベースへのアクセスに標準的な方法を使用します。
  • [SSO] (SSO): Redshiftデータベースにアクセスするには、IAMシングルサインオン(SSO)認証の方法を使用します。このオプションを選択する前に、Redshiftクラスターに追加されたIAMロールに、このクラスターに対する適切なアクセス権と権限があることをご確認ください。詳細は、AWSサービスの管理者にお問い合わせください。

    このオプションは、[Basic settings] (基本設定)[Use an existing connection] (既存の接続を使用)チェックボックスがオフの場合にのみ利用できます。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

グローバル変数

[Global Variables] (グローバル変数)

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合にのみ機能します。

Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、『 Talend Studio ユーザーガイド』を参照してください。

使用方法

使用ルール

このコンポーネントは、Amazon Redshiftデータベースのすべての可能なSQLクエリーをカバーします。

[Dynamic settings] (ダイナミック設定)

[+]ボタンをクリックしてテーブルに行を追加し、[Code] (コード)フィールドにコンテキスト変数を入力して、ジョブ内で計画した複数の接続からデータベース接続をダイナミックに選択します。この機能は、データ構造が同じでデータベースが異なるデータベーステーブルにアクセスする必要がある場合、特に、Talend Studioを介さずにジョブをデプロイおよび実行する必要がある時など、ジョブの設定を変更できない環境で作業している場合に役立ちます。

[Dynamic settings] (動的設定)テーブルは、[Basic settings] (基本設定)ビューで[Use an existing connection] (既存の接続を使用)チェックボックスが選択されている場合にのみ使用できます。ダイナミックパラメーターを定義すると、[Basic settings] (基本設定)ビューの[Component List] (コンポーネントリスト)ボックスは使用できなくなります。

動的パラメーターの使用サンプルは、コンテキストベースの動的接続によるデータベースからのデータの読み取りおよび動的に読み込まれた接続パラメーターを使用した異なるMySQLデータベースからのデータの読み取りを参照してください。[Dynamic settings] (動的設定)とコンテキスト変数については、『Talend Studioユーザーガイド』を参照してください。