手順
-
tHDFSPutをダブルクリックし、[Basic settings] (基本設定)ビューでコンポーネントを定義します。
- たとえば、[Hadoop version] (Hadoopのバージョン)リストからApache 0.20.2を選択します。
- NameNode URIの[Username] (ユーザー名)フィールドと[Group] (グループ)フィールドに、HDFSへの接続パラメーターを入力します。 WebHDFSを使用している場合、ロケーションはwebhdfs://masternode:portnumberとなります。WebHDFS with SSLはまだサポートされていません。
- [Local directory] (ローカルディレクトリー)フィールドの横にある[...]ボタンをクリックして、HDFSにロードするファイルのフォルダーを参照します。このシナリオでは、tFileOutputDelimitedを設定しながらディレクトリーC:/hadoopfiles/putFile/を指定しています。
- [HDFS directory] (HDFSディレクトリー)フィールドに、ロードするファイルの格納先にするHDFS内の場所を入力します。この例では/testFileです。
- [Overwrite file] (ファイルの上書き)フィールドをクリックしてドロップダウンリストを表示します。
- メニューから[always] (常時)を選択します。
- [Files] (ファイル)エリアで[+]ボタンをクリックして、ロードするファイルを定義するための行を追加します。
- [File mask] (ファイルマスク)カラムに*.txtと入力して、引用符に囲まれたnewLineを置き換えます。[New name] (新しい名前)カラムはそのままにしておきます。これで、指定のディレクトリーからすべての.txtファイルを、名前を変更せずに抽出できます。この例では、ファイルはin.txtです。