tDBFSGet標準プロパティ - 7.2

Databricks

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション > Databricks
ジョブデザインと開発 > ジョブデザイン > Serverless > Databricks

このプロパティはStandardジョブフレームワークで実行されているtDBFSGetを設定するために使います。

Standard tDBFSGetコンポーネントはビッグデータファミリーとファイルファミリーのコンポーネントです。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。

基本設定

[Property type] (プロパティタイプ)

[Built-In] (組み込み)または[Repository] (リポジトリー)のいずれか。

[Built-In] (組み込み): プロパティデータは一元的に保存されません。

[Repository] (リポジトリー): プロパティを保存するリポジトリーファイルを選択します。

[Use an existing connection] (既存の接続を使用)

このチェックボックスをオンにして、[Component List] (コンポーネントリスト)で、定義済みの接続詳細を再利用するHDFS接続コンポーネントをクリックします。

ジョブに親ジョブと子ジョブが含まれている場合、[Component List] (コンポーネントリスト)には同じジョブレベルの接続コンポーネントのみが表示されます。

[Endpoint] (エンドポイント)

[Endpoint] (エンドポイント)フィールドに、Azure DatabricksワークスペースのURLアドレスを入力します。このURLは、AzureポータルのDatabricksワークスペースページの[Overview] (概要)のブレードにあります。たとえば、このURLはhttps://westeurope.azuredatabricks.netのようになります。

[Token] (トークン)

[Token] (トークン)フィールドの横にある[...]ボタンをクリックして、Databricksユーザーアカウントに生成された認証トークンを入力します。このトークンは、Databricksワークスペースの[User settings] (ユーザー設定)ページで生成または検索できます。詳細は、Azureドキュメントの「Token management(トークン管理)」を参照してください。

[DBFS directory] (DBFSディレクトリー)

DBFSファイルシステムで使用するデータをポイントするパスを[DBFS directory] (DBFSディレクトリー)フィールドに入力します。

[Local directory] (ローカルディレクトリー)

DBFSからコピーしたファイルを保管するローカルディレクトリーを参照または入力します。

[Overwrite file] (ファイルの上書き)

新しいファイルで既存のファイルを上書きするオプションです。

[Include subdirectories] (サブディレクトリーを含める)

選択した入力ソースタイプにサブディレクトリーが含まれる場合、このチェックボックスをオンにします。

[Files] (ファイル)

[Files] (ファイル)エリアで以下のフィールドを完成させます。

- File mask (ファイルマスク): HDFSから選択するファイルの名前を入力します。正規表現を使用できます。

- [New name] (新しい名前): 取得したファイルに新しい名前を付けます。

Die on error (エラー発生時に強制終了)

このチェックボックスをオンにすると、エラー発生時にジョブの実行が停止されます。

エラーの発生した行をスキップし、エラーが発生していない行の処理を完了するには、このチェックボックスをオフにします。

詳細設定

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

使用方法

使用ルール

このコンポーネントはDBFS接続とデータ抽出を組み合わせます。したがって、ユーザーが定義したローカルディレクトリーにDBFSのデータをコピーするために単一コンポーネントサブジョブとして使われます。

スタンドアロンで実行され、他のコンポーネント用の入力フローや出力フローを生成しません。多くの場合、コンテキストに応じて、OnSubjobOkまたはOnComponentOkリンクを使ってジョブに接続します。