tAzureSynapseBulkExec標準プロパティ - 7.3

Azure SQL Data Warehouse

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > サードパーティーシステム > クラウドストレージ > Azure > Azure SQL Data Warehouseコンポーネント
データガバナンス > サードパーティーシステム > クラウドストレージ > Azure > Azure SQL Data Warehouseコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > クラウドストレージ > Azure > Azure SQL Data Warehouseコンポーネント

このプロパティはStandardジョブフレームワークで実行されているtAzureSynapseBulkExecを設定するために使います。

StandardtAzureSynapseBulkExecコンポーネントはCloudファミリーとデータベースファミリーのコンポーネントです。

このフレームワーク内のコンポーネントは、すべてのTalend製品で使用できます。

基本設定

[Property Type] (プロパティタイプ)

接続の詳細を設定する方法を選択します。

  • Built-In (組み込み): このコンポーネントの接続の詳細がローカルに設定されます。関連するすべての接続プロパティの値を手動で指定する必要があります。

  • [Repository] (リポジトリー): [Repository] (リポジトリー) > [Metadata] (メタデータ)で一元的に保存された接続の詳細が、このコンポーネントによって再使用されます。このチェックボックスのとなりにある [...] ボタンをクリックし、表示された [Repository Content] (リポジトリーの内容)ダイアログボックスで、再使用する接続の詳細を選択すると、関連するすべての接続のプロパティに値が自動的に入力されます。

[Use an existing connection] (既存の接続を使用する)

定義済みの接続の詳細を再利用するには、このチェックボックスをオンにして、[Component List] (コンポーネントリスト)で該当する接続コンポーネントをクリックします。

ジョブに親ジョブと子ジョブが含まれている時は、2つのレベルの間の既存の接続を共有する必要がな場合(たとえば、親ジョブで作成した接続を子ジョブと共有するなど)には、以下を実行する必要があります。

  1. 親レベルで、共有するデータベース接続を、そのデータベース接続そのものを作成する接続コンポーネントの[Basic settings] (基本設定)ビューに登録します。

  2. 子レベルで、登録済みのそのデータベース接続を読み取るために専用の接続コンポーネントを使用します。

ジョブレベルをまたがってデータベース接続を共有する方法の例は、『 Talend Studio ユーザーガイド』を参照してください。

[JDBC Provider] (JDBCプロバイダー)

使うJDBCドライバーのプロバイダーを選択します。

Host (ホスト)

使うAzure SQL Data WarehouseのIPアドレスまたはホスト名を指定します。

[Port] (ポート)

使うAzure SQL Data Warehouseのリスニングポート番号を指定します。

[Schema] (スキーマ)

Azure SQL Data Warehouseスキーマの名前を入力します。

[Database] (データベース)

使うAzure SQL Data Warehouseの名前を指定します。

Username (ユーザー名)Password (パスワード)

Azure SQL Data Warehouseにアクセスするためのユーザー認証データを入力します。

パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、[OK] をクリックして設定を保存します。

[Additional JDBC Parameters] (追加のJDBCパラメーター)

作成するデータベース接続に追加の接続プロパティを指定します。プロパティはセミコロンで区切られ、各プロパティはキー/値ペアです。たとえば、Azure SQLデータベース接続の場合は、encrypt=true;trustServerCertificate=false; hostNameInCertificate=*.database.windows.net;loginTimeout=30;になります。

[Table] (テーブル)

データがロードされるSQL Data Warehouseテーブルの名前を指定します。

テーブルの操作

定義されたテーブルに対して実行する操作を選択します。

  • [None] (なし): 操作は行われません。

  • [Drop and create table] (テーブルの削除と作成): テーブルが削除され、再作成されます。

  • [Create table] (テーブルの作成): テーブルが存在しないため、作成します。

  • [Create table if not exists] (存在しない場合はテーブルを作成): テーブルが存在しない場合は作成されます。

  • [Drop table if exist and create] (存在する場合はテーブルを削除して作成): テーブルが既に存在する場合は削除されて、再作成されます。

  • [Clear table] (テーブルのクリア): テーブルの内容が削除されます。操作はロールバックできます。

  • [Truncate table] (テーブルの切り捨て): テーブルの内容が削除されます。操作をロールバックすることはできません。

スキーマスキーマの編集

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

  • [Built-in] (組み込み): そのコンポーネントのみのスキーマを作成して、ローカルに保存します。

  • [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

スキーマを変更するには[Edit schema] (スキーマの編集)をクリックします。
注: 変更を加えると、スキーマは自動的に組み込みになります。
  • [View schema] (スキーマの表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続を更新): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーのコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

[Load method] (ロード方法)

データの読み込み方法を設定します。[Copy] (コピー)PloyBaseの2つのオプションが提供されています。関連情報は、Synapse SQLプールのデータロード戦略を参照してください。

注: このオプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。
Azureストレージ

データをロードするAzureストレージのタイプを選択します。Blob StorageData Lake Storage Gen1、またはData Lake Storage Gen2を選択できます。[Load method] (ロード方法)ドロップダウンリストでCopy が選択されている場合、Data Lake Storage Gen1オプションは利用できません。

注: Data Lake Storage Gen2オプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。

認証方式

ドロップダウンリストから次の認証メソッドの1つを選択します。
  • [Shared access signatures] (共有アクセス署名): 共有アクセス署名が必要です。詳細は、Constructing the Account SAS URIを参照してください。
  • [Storage account key] (ストレージアカウントキー): アカウントアクセスキーが必要です。関連情報は、Manage a storage accountを参照してください。
  • Azure Active Directoryは、[Advanced setting] (詳細設定)ビューでAzure Active Directoryを使って認証が選択されている場合に利用できます。

このオプションは、[Load Method] (ロード方法)ドロップダウンリストでCopyが選択されている場合にのみ利用できます。

注: このオプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。
Account Name (アカウント名)

アクセスするAzure Blob StorageまたはAzure Data Lake Storageのアカウント名を入力します。

アクセスキー

アクセスする必要のあるストレージアカウントに関連付けられたキーを入力します。どのアカウントにも使えるキーが2つあり、デフォルトでは、どちらもこのアクセスに使えます。Azureストレージへの接続を設定するために接続の詳細を使うコンポーネントをドロップダウンリストから選択します。

このプロパティは、[Azure Storage] (Azureストレージ)ドロップダウンリストでBlob Storageが選択されている場合にのみ利用できます。

[SAS token] (SASトークン)

SASトークンの値を入力します。関連情報は、Constructing the Account SAS URIを参照してください。このオプションは、[Authentication method] (認証方式)ドロップダウンリストの[Shared access signatures] (共有アクセス署名)オプションでのみ利用できます。

注: このオプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。

Endpoint suffix (エンドポイントサフィックス)

Azureストレージのサービスエンドポイントを入力します。

アカウント名とAzureストレージサービスエンドポイントの組み合わせにより、ストレージアカウントのエンドポイントが形成されます。

デフォルト値は、[Azure Storage] (Azureストレージ)の設定に応じて異なります。Data Lake Storage Gen2の場合は"dfs.core.windows.net"Blob Storageの場合は"blob.core.windows.net"です。

このフィールドは、[Load Method] (ロード方法)ドロップダウンリストの[Copy] (コピー)オプションでのみ利用できます。

注: このオプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。
Container (コンテナー)

blobコンテナーの名前を入力します。

このプロパティは、[Azure Storage] (Azureストレージ)ドロップダウンリストでBlob Storageが選択されている場合にのみ利用できます。

[External paths] (外部パス)

データの読み込み元の外部パスを入力します。下部の[+]ボタンをクリックして、複数の外部パスを追加できます。外部パスはコンテナーをルートとする相対パスです。

このフィールドは、[Basic settings] (基本設定)ビューで[Load method] (ロード方法)ドロップダウンリストから[Copy] (コピー)を選択した場合にのみ利用できます。

注: このオプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。
[Client Id] (クライアントID)

アプリケーションID (別名クライアントID)を入力します。

このプロパティは、[Azure Storage] (Azureストレージ)ドロップダウンリストでData Lake Storage Gen1が選択されている場合にのみ利用できます。

[OAuth 2.0 token endpoint] (OAuth 2.0トークンエンドポイント)

[Token endpoint] (トークンエンドポイント)フィールドで、Azureポータルの[App registrations] (アプリの登録)ページの[Endpoints] (エンドポイント)リストから取得できるOAuth 2.0トークンエンドポイントをコピーして貼り付けます。

このプロパティは、[Azure Storage] (Azureストレージ)ドロップダウンリストでData Lake Storage Gen1が選択されている場合にのみ利用できます。

[Azure Storage Location] (Azureストレージの場所)

Azure Blob StorageまたはAzure Data Lakeストレージアカウントが作成されている場所を指定します。

詳細設定

[Secure transfer required] (安全な転送が必要)

Azureストレージ接続に安全な転送を使うには、このオプションを選択します。

このオプションは、[Basic settings] (基本設定)ビューの[Azure Storage] (Azureストレージ)ドロップダウンリストでData Lake Storage Gen2を選択し、[Load method] (ロード方法)ドロップダウンリストでPolyBaseを選択した場合に利用できます。

注: このオプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。

[Authenticate using Azure Active Directory] (Azure Active Directoryを使って認証)

接続を確立する時にAzure Active Directory認証を使うには、このオプションを選択します。関連情報は、Azure AD認証を参照してください。

注: このオプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。
[File format] (ファイル形式)

Azure BlobストレージまたはAzure Data Lakeストレージに保管されている外部データを定義するファイル形式、Delimited TextHive RCFileHive ORC、または Parquetを選択します。

このオプションは、[Basic settings] (基本設定)ビューの[Load method] (ロード方法)ドロップダウンリストでPolyBaseを選択した場合にのみ利用できます。

ファイル形式の詳細は、CREATE EXTERNAL FILE FORMATを参照してください。

[File type] (ファイルタイプ)

Azure BlobストレージまたはAzure Data Lakeストレージに保管されている外部データを定義するフィルタータイプ、CSVORCまたは Parquetを選択します。

このフィールドは、[Basic settings] (基本設定)ビューで[Load method] (ロード方法)ドロップダウンリストから[Copy] (コピー)を選択した場合にのみ利用できます。

ファイル形式の詳細は、CREATE EXTERNAL FILE FORMATを参照してください。

注: このオプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。

[Specify map to source table fields] (ソーステーブルフィールドにマップを指定)

このオプションを選択して、表示されるテーブルにスキーマカラムとフィールドインデックスを入力して、ソースファイルのフィールドを特定のスキーマカラムにマッピングします。ソースファイルのフィールドインデックスは、テーブル内で昇順に指定する必要があります。

このオプションが選択されていない場合、ソースファイルのフィールドは、デフォルトの順序でスキーマカラムにマップされます。

このフィールドは、[Basic settings] (基本設定)ビューで[Load method] (ロード方法)ドロップダウンリストから[Copy] (コピー)を選択した場合にのみ利用できます。

注: このオプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。

[First row] (最初の行)

ヘッダーとして処理するソースファイルの行数を設定します。デフォルトは1です。

このフィールドは、[Basic settings] (基本設定)ビューの[Load method] (ロード方法)ドロップダウンリストから[Copy] (コピー)を選択し、[File type] (ファイルタイプ)ドロップダウンリストからCSVオプションを選択した場合にのみ利用できます。

注: このオプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。
[Field quote] (フィールドクォート)

ソースファイルで引用符(文字列の区切り記号)として使われる記号を指定します。

このフィールドは、[Basic settings] (基本設定)ビューの[Load method] (ロード方法)ドロップダウンリストから[Copy] (コピー)を選択し、[File type] (ファイルタイプ)ドロップダウンリストからCSVオプションを選択した場合にのみ利用できます。

注: このオプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。
[Field terminator] (フィールドターミネーター)

ソースファイルの各フィールドの終わりを示すフィールドターミネーターを指定します。

このフィールドは、[Basic settings] (基本設定)ビューの[Load method] (ロード方法)ドロップダウンリストから[Copy] (コピー)を選択し、[File type] (ファイルタイプ)ドロップダウンリストからCSVオプションを選択した場合にのみ利用できます。

注: このオプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。
[Row terminator] (行ターミネーター)

ソースファイルの各行の終わりを示す行ターミネーターを指定します。

このフィールドは、[Basic settings] (基本設定)ビューの[Load method] (ロード方法)ドロップダウンリストから[Copy] (コピー)を選択し、[File type] (ファイルタイプ)ドロップダウンリストからCSVオプションを選択した場合にのみ利用できます。

注: このオプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。
[Date format] (日付形式)

日付形式を指定します。デフォルトは[Session date format] (セッション日付形式)です。

このフィールドは、[Basic settings] (基本設定)ビューの[Load method] (ロード方法)ドロップダウンリストから[Copy] (コピー)を選択し、[File type] (ファイルタイプ)ドロップダウンリストからCSVオプションを選択した場合にのみ利用できます。

注: このオプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。
[Encoding] (エンコーディング)

リストからエンコーディングを選択します(UTF8またはUTF16)。

このフィールドは、[Basic settings] (基本設定)ビューの[Load method] (ロード方法)ドロップダウンリストから[Copy] (コピー)を選択し、[File type] (ファイルタイプ)ドロップダウンリストからCSVオプションを選択した場合にのみ利用できます。

注: このオプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。

[Identity insert] (ID挿入)

ソースファイルのID値をIDカラムに挿入するには、このオプションを選択します。関連情報は、COPY (Transact-SQL)を参照してください。

このフィールドは、[Basic settings] (基本設定)ビューで[Load method] (ロード方法)ドロップダウンリストから[Copy] (コピー)を選択した場合にのみ利用できます。

注: このオプションは、TalendのR2020-05以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。

[Max errors] (最大エラー数)

プロセスを停止しない、許可される最大エラー数を入力します。

このフィールドは、[Basic settings] (基本設定)ビューで[Load method] (ロード方法)ドロップダウンリストから[Copy] (コピー)を選択した場合にのみ利用できます。

[Field separator] (フィールド区切り)

区切り記号付きテキストファイルの各フィールドの終わりを示す文字を指定します。

このプロパティは、[ Basic settings](基本設定)ビューの[Load method] (ロード方法)ドロップダウンリストでPoly Baseを選択し、[File format] (ファイルフォーマット)ドロップダウンリストでDelimited Textを選択した場合に利用できます。

[Enclosed by] (引用符)

このチェックボックスをオンにして、その横のフィールドで、区切り記号付きファイル内の文字列を囲む文字を指定します。

このプロパティは、[ Basic settings](基本設定)ビューの[Load method] (ロード方法)ドロップダウンリストでPoly Baseを選択し、[File format] (ファイルフォーマット)ドロップダウンリストでDelimited Textを選択した場合に利用できます。

日付形式

このチェックボックスをオンにし、その横のフィールドで、区切り記号付きファイル内のすべての日付と時刻のデータのカスタム形式を指定します。日付形式の詳細は、CREATE EXTERNAL FILE FORMATを参照してください。

このプロパティは、[ Basic settings](基本設定)ビューの[Load method] (ロード方法)ドロップダウンリストでPoly Baseを選択し、[File format] (ファイルフォーマット)ドロップダウンリストでDelimited Textを選択した場合に利用できます。

[Use type default] (タイプのデフォルトを使用)

このチェックボックスをオンにすると、対応するカラムのデータ型のデフォルト値を使って各欠損値が保管されます。

このチェックボックスをオフにすると、区切り記号付きファイルに欠落している各値がNULLとして保管されます。

このプロパティは、[ Basic settings](基本設定)ビューの[Load method] (ロード方法)ドロップダウンリストでPoly Baseを選択し、[File format] (ファイルフォーマット)ドロップダウンリストでDelimited Textを選択した場合に利用できます。

[Serde Method] (Serdeメソッド)

Hiveシリアライザーとデシリアライザーのメソッドを選択します。

このプロパティは、[File format] (ファイルフォーマット)ドロップダウンリストでHive RCFileが選択されている場合にのみ利用できます。

[Compressed by] (圧縮方式)

外部データが圧縮されている場合は、このチェックボックスをオンにし、横に表示されるドロップダウンリストから圧縮方式を選択します。

[Data import reject options] (データインポートリジェクトオプション)

このチェックボックスをオンにして、次のリジェクトオプションを指定します。

  • [Reject type] (リジェクトタイプ): リジェクト行の処理方法を指定します。

    • [Value] (値): リジェクト行の数が[Reject value] (リジェクト値)フィールドで指定した値を超えると、ロードは失敗します。
    • [Percentage] (パーセンテージ): リジェクト行のパーセンテージが[Reject value] (リジェクト値)フィールドで指定した値を超えると、ロードは失敗します。
  • [Reject value] (リジェクト値): リジェクトタイプに応じたリジェクト値。パーセンテージの場合は、%記号なしのパーセント値です。

  • [Reject sample value] (サンプル値をリジェクト): リジェクトパーセンテージのサンプル値。

このフィールドは、[Load Method] (ロード方法)ドロップダウンリストの[Copy] (コピー)オプションでのみ利用できます。

リジェクトオプションの詳細は、CREATE EXTERNAL TABLEを参照してください。

[Distribution Option] (ディストリビューションオプション)

テーブル内のデータの分散に使われるシャーディングパターン、Round RobinHash、またはReplicateを選択します。Azure SQLデータウェアハウスでサポートされているシャーディングパターンの詳細は、Azure Synapse Analytics (formerly SQL DW) architectureを参照してください。

このプロパティは、[Action on table] (テーブルへのアクション)ドロップダウンリストでテーブル作成に関連するどのオプションを選択した時にも利用できます。

[Distribution Column Name] (ディストリビューションカラム名)

ハッシュディストリビューションテーブルのディストリビューションカラムの名前。

このプロパティは、[Distribution Option] (ディストリビューションオプション)ドロップダウンリストでHashが選択されている場合にのみ利用できます。

[Table Option] (テーブルオプション)

テーブルのインデックスタイプ(Clustered Columnstore IndexHeap、またはClustered Index)を選択します。詳細は、Indexing tables in Synapse SQL poolを参照してください。

このプロパティは、[Action on table] (テーブルへのアクション)ドロップダウンリストでテーブル作成に関連するどのオプションを選択した時にも利用できます。

[Index column(s)] (インデックスカラム)

インデックス内の1つ以上のキーカラムの名前を指定します。複数のカラムを指定する場合は、コンマで区切ります。

このプロパティは、[Table Option] (テーブルオプション)ドロップダウンリストでClustered Indexが選択されている場合にのみ利用できます。

Partition (パーティション)

このチェックボックスをオンにして、次のパターンオプションを指定します。

  • [Partition column name] (パーティションカラム名): テーブルを分割するために使うカラムの名前を指定します。

  • [Range] (範囲): 制限の範囲に制限値を含める方法を指定します。

    • [Left] (左): 制限値は、制限の左側の範囲に含まれます。

    • [Right] (右): 限界値は、制限の右側に含まれます。

  • [Partition For Values] (値のパーティション): パーティションに使う値(カンマ区切り)を指定します。

テーブルパターンの詳細は、Partitioning tables in Synapse SQL poolを参照してください。

このプロパティは、[Action on table] (テーブルへのアクション)ドロップダウンリストでテーブル作成に関連するどのオプションを選択した時にも利用できます。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

[Global Variables] (グローバル変数)

ERROR_MESSAGE

エラー発生時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。

NB_LINE_INSERTED

挿入された行数。これはAfter変数で、整数を返します。

使用方法

使用ルール

このコンポーネントはジョブやサブジョブのスタンドアロンコンポーネントとして使用できます。

制限事項

他のデータベースでサポートされている機能でも、Azure SQL Data Warehouseではサポートされていないものもあります。詳細については、サポートされていないテーブル機能を参照してください。