tRedshiftBulkExec標準プロパティ - 7.3

Amazon Redshift

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > Amazonサービス > Amazon Redshift
データガバナンス > サードパーティーシステム > Amazonサービス > Amazon Redshift
データクオリティとプレパレーション > サードパーティーシステム > Amazonサービス > Amazon Redshift

このプロパティは[Standard] (標準)ジョブフレームワークで実行するtRedshiftBulkExecの設定で使用されます。

標準 tRedshiftBulkExecコンポーネントは、ファミリーCloudおよびデータベースに属しています。

このフレームワーク内のコンポーネントは、すべてのTalend製品で使用できます。

注: このコンポーネントは、動的データベースコネクターの特定のバージョンです。データベース設定に関連するプロパティは、データベースタイプの選択に応じて異なります。動的データベースコネクターについては、../reuse/../standard/dynamic-database-components_c.htmlを参照してください。

基本設定

データベース

データベースのタイプをリストから選択し、[Apply] (適用)をクリックします。

[Property Type] (プロパティタイプ)

[Built-In] (組み込み)または[Repository] (リポジトリー)のいずれか。

  • [Built-In] (組み込み): プロパティデータは一元的に保存されません。

  • [Repository] (リポジトリー): プロパティを保存するリポジトリーファイルを選択します。

[Use an existing connection] (既存の接続を使用)

定義済みの接続の詳細を再利用するには、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)ドロップダウンリストで目的の接続コンポーネントを選択します。

[Host] (ホスト)

データベースサーバーのIPアドレスまたはホスト名を入力します。

[Port] (ポート)

データベースサーバーのリスニングポート番号を入力します。

[Database] (データベース)

データベースの名前を入力します。

[Schema] (スキーマ)

スキーマの名前を入力します。

[Username] (ユーザー名)[Password] (パスワード)

データベースユーザー認証データを入力します。

パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、[OK] をクリックして設定を保存します。

[Additional JDBC Parameters] (追加のJDBCパラメーター)

作成する接続の追加のJDBCプロパティを指定します。プロパティはアンパサンド(&)で区切られ、各プロパティはキー/値ペアです。たとえば、ssl=true & sslfactory=com.amazon.redshift.ssl.NonValidatingFactoryになります。これは、SSLを使用して接続が作成されることを意味します。

[Table Name] (テーブル名)

作成するテーブルの名前を指定します。一度に1つのテーブルしか書き込めないことにご注意ください。

[Action on table] (テーブルへのアクション)

定義済みのテーブルで、次のオペレーションの1つを実行できます。

  • [None] (なし): 操作は行われません。

  • [Drop and create table] (テーブルの削除と作成): テーブルが削除され、再作成されます。

  • [Create table] (テーブルの作成): テーブルが存在しないため、作成します。

  • [Create table if not exists] (存在しない場合はテーブルを作成): テーブルが存在しない場合は作成されます。

  • [Drop table if exists and create] (テーブルがある場合はテーブルをドロップして作成します): テーブルが既に存在する場合は削除され、再び作成されます。

  • [Clear table] (テーブルのクリア): テーブルの内容が削除されます。操作はロールバックできます。

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

  • [Built-in] (組み込み): そのコンポーネントのみのスキーマを作成して、ローカルに保存します。

  • [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

 

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを使用できます。

  • [View schema] (スキーマの表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続を更新): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーのコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

[Data source type] (データソースタイプ)

ロードするソースデータのロケーションを選択します。

  • [S3]: Amazon S3バケット内のファイルからデータをロードします。

  • [EMR]: Amazon EMRクラスターからデータをロードします。

  • [DynamoDB]: 既存のDynamoDBテーブルからデータをロードします。

  • [Remote host] (リモートホスト): Amazon Elastic Compute Cloud (Amazon EC2)インスタンスやその他のコンピューターなど、1つ以上のリモートホストからデータをロードします。

詳細は、Data Sourcesを参照してください。

[Use an existing S3 connection] (既存のS3接続を使う)

定義済みの接続の詳細を再利用するには、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)ドロップダウンリストで目的の接続コンポーネントを選択します。

このオプションは、[Data source type] (データソースタイプ)ドロップダウンリストからS3が選択されている場合に利用できます。

[Access Key] (アクセスキー)/[S3 Access Key] (S3アクセスキー)

AWSアカウントを一意に識別するアクセスキーIDを指定します。アクセスキーとアクセスシークレットキーを取得する方法は、「Getting Your AWS Access Keys」を参照してください。

注:
  • このオプションは、[Use existing S3 connection] (既存のS3接続の使用)が選択されている場合には利用できません。
  • [Data source type] (データソースタイプ)ドロップダウンリストから[Remote host] (リモートホスト)を選択すると、このオプションは[S3 Access Key] (S3アクセスキー)として表示されます。

[Secret Key] (シークレットキー)/[S3 Secret Key] (S3シークレットキー)

シークレットアクセスキーを指定します。シークレットアクセスキーは、アクセスキーと組み合わせてセキュリティ認証情報を構成します。

シークレットキーを入力するには、シークレットキーフィールドの横の[...]ボタンをクリックし、ポップアップダイアログボックスにシークレットキーを二重引用符の間に入力し、[OK] をクリックして設定を保存します。

注:
  • このオプションは、[Use existing S3 connection] (既存のS3接続の使用)が選択されている場合には利用できません。
  • [Data source type] (データソースタイプ)ドロップダウンリストから[Remote host] (リモートホスト)を選択すると、このオプションは[S3 Secret Key] (S3シークレットキー)として表示されます。

[Assume Role] (ロールを引き受け)

このチェックボックスをオンにして、新たに引き受けたロールセッションの作成に使用する以下のパラメーターに値を指定します。

  • [IAM Role ARNs chains] (IAMロールARNチェーン): 連結された一連のロール。クラスターがリソースにアクセスするために引き受けることのできる、他のアカウントに属している場合があります。

    最大10のロールを連結できます。

  • [Role ARN] (ロールARN): 引き受けるロールのARN (Amazonリソース名)。

このオプションは、[Use existing S3 connection] (既存のS3接続の使用)が選択されている場合には利用できません。

IAMロールARNチェーンの詳細は、[Authorizing Redshift service] (Redshiftサービスの承認)を参照してください。

[Bucket] (バケット)/[S3 bucket] (S3バケット)

ファイルが置かれているAmazon S3バケットの名前を指定します。

このフィールドは[S3]または[Remote host] (リモートホスト)[Data source type] (データソースタイプ)ドロップダウンリストから選択されている場合に限り使用できます。

注: このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストでS3を選択すると[Bucket] (バケット)として表示され、ドロップダウンリストでRemote hostを選択すると[S3 bucket] (S3バケット)として表示されます。

使用するバケットとRedshiftデータベースは、Amazon上の同じリージョンに存在している必要があります。これにより、Amazonで既知のS3ServiceExceptionエラーが回避できる可能性があります。これらのエラーについては、S3ServiceExceptionエラーを参照してください。

[Key] (キー)

ロードするデータが含まれているファイルへのパスを指定します。

このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストから [S3]が選択されている場合にのみ使用できます。

[Cluster id] (クラスターID)

ロードするデータが保存されているクラスターのIDを指定します。

このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストから EMRが選択されている場合にのみ使用できます。

[HDFS path] (HDFSパス)

データファイルを参照するHDFSファイルパスを指定します。

このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストから EMRが選択されている場合にのみ使用できます。

[Table] (テーブル)

ロードするデータが含まれているDynamoDBテーブルの名前を指定します。

このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストから DynamoDBが選択されている場合にのみ使用できます。

[Read ratio] (読み取り率)

データロードに使用するDynamoDBテーブルのプロビジョニング済みスループットのパーセンテージを指定します。

このフィールドは、[Data source type] (データソースタイプ)ドロップダウンリストから DynamoDBが選択されている場合にのみ使用できます。

[SSH manifest file] (SSHマニフェストファイル)

SSH接続を開き、リモートコマンドを実行するために使用される情報を提供するSSHマニフェストファイルのオブジェクトキーを指定します。

このフィールドは[Remote host] (リモートホスト)[Data source type] (データソースタイプ)ドロップダウンリストから選択されている場合に限り使用できます。

詳細設定

[File type] (ファイルタイプ)

ロードするデータが含まれているファイルのタイプを選択します。

  • [Delimited file or CSV] (区切り記号付きファイルまたはCSV): 区切り記号付き/CSVファイル。

  • JSON: JSONファイル。

  • AVRO: Avroファイル。

  • [Fixed width] (固定幅): 固定幅ファイル。

  • Apache Parquet: Apache Parquetファイル。このオプションは、[Basic settings] (基本設定)ビューで[Data source type] (データソースタイプ)ドロップダウンリストから[S3]を選択した場合のみ利用できます。

このリストは、S3EMR、または[Remote host] (リモートホスト)[Data source type] (データソースタイプ)ドロップダウンリストから選択されている場合に限り使用できます。

注: Apache Parquetオプションは、TalendのR2021-02以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。

[Fields terminated by] (フィールド区切り記号)

フィールドを区切るための文字を入力します。

このフィールドは、[Delimited file or CSV] (区切り記号付きファイルまたはCSV)[File type] (ファイルタイプ)リストから選択されている場合にのみ使用できます。

[Enclosed by] (引用符)

フィールドが引用符で囲まれている文字を選択します。

このリストは、[Delimited file or CSV] (区切り記号付きファイルまたはCSV)[File type] (ファイルタイプ)リストから選択されている場合にのみ使用できます。

[JSON mapping] (JSONマッピング)

ソースファイル内のデータエレメントをAmazon Redshiftのターゲットテーブル内のカラムにマッピングする方法を指定します。有効な値には次のものがあります。

  • [auto] (自動): JSONファイルではソース名/値のペアのオブジェクトキーまたは名前、またはAvroファイルではAvroスキーマのフィールド名をターゲットテーブル内のカラムの名前にマッチングすることで、データのマッピングを行います。引数では大文字と小文字が区別され、二重引用符で囲む必要があります。

  • s3://jsonpaths_file: 名前付きJSONPathsファイルを使用してデータをマッピングします。パラメーターは、二重引用符で囲まれ、1つのファイルを明示的に参照しているAmazon S3オブジェクトキーである必要があります(たとえば、s3://mybucket/jsonpaths.txt)。詳細は、Data Format Parametersを参照してください。

このフィールドは、JSONまたはAVRO[File type] (ファイルタイプ)リストから選択されている場合にのみ使用できます。

[Fixed width mapping] (固定長項目マッピング)

ユーザー定義のカラムラベル、および二重引用符の間のカラム幅を指定する文字列を入力します。文字列の形式は次のとおりです。

ColumnLabel1:ColumnWidth1,ColumnLabel2:ColumnWidth2,...

文字列内のカラムラベルとテーブルカラム名の間には関係がなく、テキスト文字列または整数のどちらも使用できます。ラベル/幅のペアの順序は、テーブルカラムの順序と正確に一致している必要があります。

このフィールドは、[File type] (ファイルタイプ)リストから[Fixed width] (固定幅)が選択されている場合にのみ使用できます。

[Compressed by] (圧縮方式)

このチェックボックスをオンにして、表示されたリストからソースファイルの圧縮タイプを選択します。

このチェックボックスは、S3EMR、または[Remote host] (リモートホスト)[Data source type] (データソースタイプ)ドロップダウンリストから選択されている場合に限り使用できます。

[Decrypt] (解読)

ファイルの暗号化にAmazon S3のクライアント側の暗号化が使用されている場合は、このチェックボックスをオンにします。[Encryption key] (暗号化キー)フィールドが表示されたら、ファイルの暗号化に使用されている暗号化キーを指定します。base64でエンコードされたAES 128ビットまたはAES 256ビットのエンベロープキーのみサポートされています。詳細は、Loading Encrypted Data Files from Amazon S3を参照してください。

このチェックボックスは、[Data source type] (データソースタイプ)ドロップダウンリストからS3が選択され、[Basic settings] (基本設定)ビューで[Use an existing S3 connection] (既存のS3接続を使う)が選択されていない場合に利用できます。

[Encoding] (エンコーディング)

リストからロードするデータのエンコーディングタイプを選択します。

このリストは、S3EMR、または[Remote host] (リモートホスト)[Data source type] (データソースタイプ)ドロップダウンリストから選択されている場合に限り使用できます。

[Date format] (日付形式)

リストから次のアイテムの1つを選択し、ソースデータの日付形式を指定します。

  • NONE: 日付形式は指定されません。

  • PATTERN: これを選択すると、表示されるフィールドで日付形式を指定できます。デフォルトの日付形式はYYYY-MM-DDです。

  • AUTO: Amazon Redshiftが日付形式を認識し、自動的に変換するように設定するには、これを選択します。

[Time format] (時刻の形式)

リストから次のアイテムの1つを選択し、ソースデータの時刻の形式を指定します。

  • NONE: 時刻の形式は指定されません。

  • PATTERN: これを選択すると、表示されるフィールドで時刻の形式を指定できます。デフォルトの時刻形式はYYYY-MM-DD HH:MI:SSです。

  • AUTO: Amazon Redshiftが時刻の形式を認識し、自動的に変換するように設定するには、これを選択します。

  • EPOCHSECS: ソースデータがエポックタイム(1970年1月1日、00:00:00 UTCを基準とする秒数)で表されるようにするには、これを選択します。

  • EPOCHMILLISECS: ソースデータがエポックタイム(1970年1月1日、00:00:00 UTCを基準とするミリ秒数)で表されるようにするには、これを選択します。

[Settings] (設定)

データをロードする際のパラメーターを増やすには、テーブルの下の[+]ボタンをクリックします。

  • [Parameter] (クライアントパラメーター): セルをクリックし、ドロップダウンリストからパラメーターを選択します。

  • [Value] (値): 対応するパラメーターに値を設定します。値を必要としないパラメーター(IGNOREBLANKLINESなど)に値を設定することはできません。

パラメーターの詳細は、http://docs.aws.amazon.com/redshift/latest/dg/r_COPY.htmlを参照してください。

JDBC url
Amazon Redshiftデーターベースへのアクセス方法を[JDBC url] (JDBC URL) ドロップダウンリストから選択します。
  • [Standard] (標準): Redshiftデータベースへのアクセスに標準的な方法を使用します。
  • [SSO] (SSO): Redshiftデータベースにアクセスするには、IAMシングルサインオン(SSO)認証の方法を使用します。このオプションを選択する前に、Redshiftクラスターに追加されたIAMロールに、このクラスターに対する適切なアクセス権と権限があることをご確認ください。詳細は、AWSサービスの管理者にお問い合わせください。

    このオプションは、[Basic settings] (基本設定)[Use an existing connection] (既存の接続を使用)チェックボックスがオフの場合にのみ利用できます。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

グローバル変数

[Global Variables] (グローバル変数)

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合にのみ機能します。

Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、『 Talend Studio ユーザーガイド』を参照してください。

注:

このコンポーネントは、[Row] (行) > [Reject] (リジェクト)リンクをサポートしていません。

使用方法

使用ルール

tRedshiftBulkExecコンポーネントでは、Amazon S3上の区切り記号付き/CSV、JSON、または固定幅ファイルからAmazon Redshiftにデータをロードできます。ただし、tRedshiftOutputBulkコンポーネントは現在、区切り記号付き/CSVファイルを生成してAmazon S3にアップロードする処理のみサポートしています。JSONまたは固定幅ファイルからデータをロードする必要がある場合は、コンポーネントtRedshiftOutputBulkを使用してファイルを生成してAmazon S3にアップロードするのではなく、コンポーネントtFileOutputJSONまたはtFileOutputPositionalをコンポーネントtS3Putと一緒に使用します。

[Dynamic settings] (ダイナミック設定)

[+]ボタンをクリックしてテーブルに行を追加し、[Code] (コード)フィールドにコンテキスト変数を入力して、ジョブ内で計画した複数の接続からデータベース接続をダイナミックに選択します。この機能は、データ構造が同じでデータベースが異なるデータベーステーブルにアクセスする必要がある場合、特に、Talend Studioを介さずにジョブをデプロイおよび実行する必要がある時など、ジョブの設定を変更できない環境で作業している場合に役立ちます。

[Dynamic settings] (動的設定)テーブルは、[Basic settings] (基本設定)ビューで[Use an existing connection] (既存の接続を使用)チェックボックスが選択されている場合にのみ使用できます。ダイナミックパラメーターを定義すると、[Basic settings] (基本設定)ビューの[Component List] (コンポーネントリスト)ボックスは使用できなくなります。

動的パラメーターの使用サンプルは、../reuse/../standard/reading-data-from-databases-through-context-based-dynamic-connect_c.htmlおよび../reuse/../standard/tcontextload_tlogrow-tfileinputdelimited-tmysqlinput_reading-data-from-different-mysql-databases-using-dynamically-loa_standard_component_the-job-in_c.htmlを参照してください。[Dynamic settings] (動的設定)とコンテキスト変数については、『Talend Studioユーザーガイド』を参照してください。