HDFSからのデータの取得 - 7.3

HDFS

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > サードパーティーシステム > ファイルコンポーネント > HDFS
データガバナンス > サードパーティーシステム > ファイルコンポーネント > HDFS
データクオリティとプレパレーション > サードパーティーシステム > ファイルコンポーネント > HDFS

手順

  1. tHDFSGetをダブルクリックし、[Basic settings] (基本設定)ビューでコンポーネントを定義します。
  2. たとえば、[Hadoop version] (Hadoopのバージョン)リストからApache 0.20.2を選択します。
  3. NameNode URI[Username] (ユーザー名)フィールドと[Group] (グループ)フィールドに、HDFSへの接続パラメーターを入力します。 WebHDFSを使用している場合、ロケーションはwebhdfs://masternode:portnumberとなります。WebHDFS with SSLはまだサポートされていません。
  4. [HDFS directory] (HDFSディレクトリー)フィールドに、ロードしたファイルを格納するHDFS内の場所を入力します。この例では/testFileです。
  5. [Local directory] (ローカルディレクトリー)フィールドの横の[...]ボタンをクリックして、HDFSから抽出したファイルの格納先にするフォルダーを参照します。このシナリオでは、ディレクトリーはC:/hadoopfiles/getFile/です。
  6. [Overwrite file] (ファイルの上書き)フィールドをクリックしてドロップダウンリストを表示します。
  7. メニューから[always] (常時)を選択します。
  8. [Files] (ファイル)エリアで[+]ボタンをクリックして、抽出するファイルを定義するための行を追加します。
  9. [File mask] (ファイルマスク)カラムに*.txtと入力して、引用符に囲まれたnewLineを置き換えます。[New name] (新しい名前)カラムはそのままにしておきます。これで、HDFS内の指定のディレクトリーからすべての.txtファイルを、名前を変更せずに抽出できます。この例では、ファイルはin.txtです。