[Repository] (リポジトリー)内にHDFSへの接続があると、この接続を関連ジョブに再利用することができます。
始める前に
-
使用するHDFSシステムをホストするHadoopクラスターへの接続が、[Repository] (リポジトリー)内の[Hadoop cluster] (Hadoopクラスター)ノードから設定済みであること。
この接続を作成する方法の詳細は、Hadoop接続の手動セットアップを参照して下さい。
-
使用するHadoopクラスターが適切に設定され、実行されており、そのディストリビューションとHDFSに対する適切なアクセス権限を持っていること。
-
Talend Studioがインストールされているクライアントマシンが、使用するHadoopクラスターのノードのホスト名を認識できることを確認する必要があります。そのためには、そのHadoopクラスターのサービスに使用するIPアドレス/ホスト名のマッピングエントリをクライアントマシンのhostsファイルに追加します。
たとえば、Hadoopネームノードサーバーのホスト名がtalend-cdh550.weave.localで、IPアドレスが192.168.x.xの場合、マッピングエントリは192.168.x.x talend-cdh550.weave.localとなります。
手順
タスクの結果
新しいHDFS接続は、[Repository] (リポジトリー)ツリービューの[Hadoop cluster] (Hadoopクラスター)ノードの下に表示されます。これを使用して、これらのスキーマをTalendジョブで再利用するために、接続されたHDFSシステムに保存されているファイルのスキーマを定義し、一元管理することができます。