HDFSのプロパティ - Cloud

Talend Cloudアプリコネクターガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Inventory
Talend Data Preparation
Talend Pipeline Designer
Content
ジョブデザインと開発 > パイプラインのデザイン
管理と監視 > 接続の管理
Last publication date
2024-03-21
特定のHadoop Distributed File System (HDFS)に接続できるよう設定するプロパティです。

HDFS接続

プロパティ

設定

[Selection] (選択) HDFSを選択または入力します。
[Configuration] (設定)
[Engine] (エンジン) リストからエンジンを選択します。
[Connection] (接続) [User name] (ユーザー名) HDFSへの認証に使用するユーザー名を入力します。
[Description] (説明) 接続の表示名(必須)と説明(オプション)を入力します。

HDFSデータセット

プロパティ 設定
[Dataset Name] (データセット名) データセットの表示名を入力します。この名前はすべてのTalend Cloudアプリでデータセットの一意識別子として使われます。
[Connection] (接続) リストで接続を選択します。既存の接続に基づいてデータセットを作成する場合、このフィールドは読み取り専用となります。
[HDFS data] (HDFSデータ) [Path] (パス) ファイルシステムで取得するデータをポイントするパスを入力します。
[Format config] (形式設定) [Auto detect] (自動検出) このボタンをクリックすると、取得するデータの形式が自動的に検出されます。
[Format] (形式) または、取得する次のようなファイル形式をリストで選択し、そのファイル形式に関連する情報を入力または選択します。
  • CSV:
    • [Record delimiter] (レコード区切り): 取得するファイルで使用するレコード区切りの種類を選択します。[Other] (その他)を選択すれば、[Custom record delimiter] (カスタムのレコード区切り)フィールドにカスタムのレコード区切りを入力できます。
    • [Field delimiter] (フィールド区切り): 取得するファイルで使用するフィールド区切りのタイプを選択します。[Other] (その他)を選択すれば、[Custom field delimiter] (カスタムのフィールド区切り)フィールドにカスタムのレコード区切りを入力できます。
    • [Text enclosure character] (テキスト囲み文字): フィールドを囲むために使用する文字を入力します。
    • [Escape character] (エスケープ文字): 取得するレコードでエスケープする文字を入力します。
    • [Encoding] (エンコーディング): 取得するファイルで使用するエンコーディングの種類を選択します。[Other] (その他)を選択すれば、[Custom encoding] (カスタムエンコーディング)フィールドにカスタムのエンコーディングタイプを入力できます。
    • [Set Header] (ヘッダーを設定): 取得するファイルにヘッダー行が含まれている場合はこのオプションを有効にし、スキーマでスキップする行数を入力または選択します。
  • Excel:
    • [Excel format] (Excel形式): 取得するファイルに対応する形式/バージョンを選択します。
    • [Sheet] (シート): 取得するExcelシートの名前を入力します。
    • [Set Header/footer] (ヘッダー/フッターを設定): 取得するファイルにヘッダー行やフッター行が含まれている場合はこれらのオプションを有効にし、スキーマでスキップする行数を入力、または選択します。
  • Avro: この形式には特定のパラメーターは必要ありません。
  • Parquet: この形式には特定のパラメーターは必要ありません。
  • JSON: この形式には特定のパラメーターは必要ありません。
コネクターがソースデータセットやデスティネーションデータセットとして使われているかどうかによって、次のようなパラメーターが表示されることがあります。
  • HDFSソースデータセットの場合:
    • [Force parallelism-ignore escape char and text enclosure parameters] (並列処理を強制 - エスケープ文字とテキスト囲み文字パラメーターを無視): ファイル内のエスケープ文字、およびテキストを囲むための文字を無視したい場合は、このオプションを有効にします。
  • HDFSデスティネーションデータセットの場合:
    • [Overwrite] (上書き): ファイルが既に存在し、その内容を上書きする場合は、このオプションを有効にします。
    • [Merge output] (出力をマージ): ファイルが既に存在し、既存ファイルやアップデート済みファイルの内容をマージする場合は、このオプションを有効にします。
    • [Map input column names to output] (入力カラム名を出力カラム名にマッピング): このオプションは、CSV、JSON、Excel形式のファイルにのみ適用されます。これによって、入力カラム名と出力カラム名が同一であることが保証されます。