ファイルをHDFSにアップロードする - 7.0

Talend Data Fabric入門ガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio

ファイルをHDFSにアップロードすると、ビッグデータジョブによる読み取りと処理が可能になります。

この手順では、Hadoop接続の手動セットアップの説明に従って[Repository] (リポジトリー)で接続済みのCloudera HadoopクラスターのHDFSシステムにデータを書き込むジョブを作成します。このデータは、ビッグデータのデータ統合タスクを実行するで説明しているユースケースに必要です。ユースケースに必要なファイルについては、このページの左パネルにある[Downloads] (ダウンロード)タブからtdf_gettingstarted_source_files.zipをダウンロードします。

始める前に

  • 使用するHadoopクラスターへの接続と、このクラスターのHDFSシステムへの接続が、[Repository] (リポジトリー)内の[Hadoop cluster] (Hadoopクラスター)ノードから設定済みであること。

    設定していない場合は、Hadoop接続の手動セットアップHDFSへの接続を設定するを参照して、接続を作成します。

  • 使用するHadoopクラスターが適切に設定され、実行されており、そのディストリビューションと使用するHDFSフォルダーに対する適切なアクセス権限を持っていること。

  • Talendジョブが実行されているクライアントマシンが、使用するHadoopクラスターのノードのホスト名を認識できることを確認します。そのためには、そのHadoopクラスターのサービスに使用するIPアドレス/ホスト名のマッピングエントリをクライアントマシンのhostsファイルに追加します。

    たとえば、Hadoopネームノードサーバーのホスト名がtalend-cdh550.weave.localで、IPアドレスが192.168.x.xの場合、マッピングエントリは192.168.x.x talend-cdh550.weave.localとなります。

  • Talend Studioを起動し、統合パースペクティブを開いていること。

手順

  1. [Repository] (リポジトリ)ツリービューで、[Job Designs] (ジョブデザイン)ノードを右クリックして、コンテキストメニューから[Create folder] (フォルダーの作成)を選択します。
  2. [Repository] (リポジトリ)ツリービューで、[Job Designs] (ジョブデザイン)ノードを展開し、[Standard] (標準)ノードを右クリックして、コンテキストメニューから[Create folder] (フォルダーの作成)を選択します。
  3. [New Folder] (新規フォルダー)ウィザードでジョブフォルダーにgetting_startedという名前を付け、[Finish] (終了)をクリックしてフォルダーを作成します。
  4. getting_startedフォルダーを右クリックし、コンテキストメニューから[Create Job] (ジョブの作成)を選択します。
  5. getting_startedフォルダーを右クリックし、コンテキストメニューから[Create Standard Job] (標準ジョブの作成)を選択します。
  6. [New Job] (新規ジョブ)ウィザードで、作成するジョブに名前を付け、必要に応じてその他の有用な情報を入力します。

    たとえば、[Name] (名前)フィールドにwrite_to_hdfsと入力します。

    ウィザードのこの手順では、[Name] (名前)が唯一の必須フィールドです。[Description] (説明)フィールドに入力した情報は、[Repository] (リポジトリー)ツリービュー内のジョブにマウスポインターを移動するとホバーテキストとして表示されます。

  7. [Finish] (終了)をクリックしてジョブを作成します。

    Studioに空のジョブが開きます。

  8. [Repository] (リポジトリー)ツリービューの[Metadata] (メタデータ)の下で、[Hadoop cluster] (Hadoopクラスター)ノードを展開します。
  9. 作成したHadoop接続を展開し、その下のHDFSフォルダーを展開します。この例では、my_cdh Hadoop接続です。
  10. HDFS接続をHDFSフォルダーから、作成するジョブのワークスペースにドロップします。この接続は、この例ではcdh_hdfsです。

    [Components] (コンポーネント)ウィンドウが開き、このHDFS接続をジョブ内で直接再利用できるすべてのコンポーネントが表示されます。

  11. tHDFSPutを選択し、[OK]をクリックして選択を確定します。

    この[Components] (コンポーネント)ウィンドウは閉じて、tHDFSPutコンポーネントが現在のジョブのワークスペースに自動的に置かれます。このコンポーネントは、前の手順で説明したHDFS接続の名前を使用してラべルが付けられています。

  12. tHDFSPutをダブルクリックして、その[Component] (コンポーネント)ビューを開きます。

    使用するHDFSシステムへの接続は、セットアップして[Repository] (リポジトリー)内に保存したHDFS接続の設定を使用して自動的に設定されています。したがって、このタブ内の関連するパラメーターは読み取り専用となります。これらのパラメーターは、[Distribution] (ディストリビューション)[Version] (バージョン)[NameNode URI][Use Datanode Hostname] (データノードホスト名の使用)[User kerberos authentication] (Kerberos認証の使用)[Username] (ユーザー名)です。

  13. [Local directory] (ローカルディレクトリー)フィールドにパスを入力するか、またはHDFSにコピーするファイルが保存されているフォルダーに移動します。

    動画とそのディレクターに関するファイルは、このディレクトリーに保存されています。

  14. [HDFS directory] (HDFSディレクトリー)フィールドにパスを入力するか、またはHDFS内のターゲットディレクトリーに移動して、ファイルを保存します。

    このディレクトリーが存在しない場合は、オンザフライで作成されます。

  15. [Overwrite file] (ファイルの上書き)ドロップダウンリストで[always](常に)を選択して、HDFS内のターゲットディレクトリーにファイルが既に存在する場合は上書きするようにします。
  16. コピーするファイルを選択する条件を定義するために、[Files] (ファイル)テーブルで[+]ボタンをクリックして1行を追加します。
  17. [Filemask] (ファイルマスク)カラムで二重引用符の間にアスタリスク(*)を入力し、tHDFSPutが、[Local directory] (ローカルディレクトリ)フィールドで指定したフォルダーに保存されている全てのファイルを選択するようにします。
  18. [New name] (新しい名前)カラムは空のままにしておきます。すなわち、デフォルトの二重引用符はそのままにしておきます。これは、アップロード後もファイルの名前が変わらないようにするためです。
  19. [F6]を押してジョブを実行します。

    [Run] (実行)ビューが自動的に開きます。ビューにはこのジョブの進行状況が示されます。

タスクの結果

ジョブが完了すると、アップロードしたファイルはHDFS内の指定したディレクトリーにあります。