HDFSへの接続を設定する - 7.0

Talend Data Fabric入門ガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
[Repository] (リポジトリー)内にHDFSへの接続があると、この接続を関連ジョブに再利用することができます。

始める前に

  • 使用するHDFSシステムをホストするHadoopクラスターへの接続が、[Repository] (リポジトリー)内の[Hadoop cluster] (Hadoopクラスター)ノードから設定済みであること。

    この接続を作成する方法の詳細は、Hadoop接続の手動セットアップを参照して下さい。

  • 使用するHadoopクラスターが適切に設定され、実行されており、そのディストリビューションとHDFSに対する適切なアクセス権限を持っていること。

  • Talend Studioがインストールされているクライアントマシンが、使用するHadoopクラスターのノードのホスト名を認識できることを確認する必要があります。そのためには、そのHadoopクラスターのサービスに使用するIPアドレス/ホスト名のマッピングエントリをクライアントマシンのhostsファイルに追加します。

    たとえば、Hadoopネームノードサーバーのホスト名がtalend-cdh550.weave.localで、IPアドレスが192.168.x.xの場合、マッピングエントリは192.168.x.x talend-cdh550.weave.localとなります。

手順

  1. [Repository] (リポジトリ)ツリービューで、[Metadata] (メタデータ)ノードの下の[Hadoop cluster] (Hadoopクラスター)ノードを展開し、使用するHadoop接続を右クリックしてコンテキストメニューから[Create HDFS] (HDFSの作成)を選択します。
  2. 接続ウィザードが表示されます。ここで、[Name] (名前)[Purpose] (目的)[Description] (説明)など、ジェネリックプロパティを入力します。
  3. 完了したら、[Next] (次へ)をクリックします。2番目の手順では、HDFSの接続データを入力します。

    [User name] (ユーザー名)プロパティには、前の手順で選択したHadoop接続から継承された値が自動的に入力されます。

    [Row separator] (行区切り)と[Field separator] (フィールド区切り)のプロパティには、デフォルトの値を使用します。

  4. 使用するHDFSファイルの先頭行のデータを使用してこのファイルのカラム名を定義するには、[Set heading row as column names] (先頭行をカラム名に設定)チェックボックスをオンにします。

    [Header] (ヘッダー)チェックボックスが自動的に選択され、[Header] (ヘッダー)フィールドに1が入力されます。これは、ファイルの最初の行がデータ本体としては無視され、ファイルのカラム名として使用されることを意味します。

  5. [Check] (チェック)をクリックして接続を確定します。

    正しく接続できたかどうかを示すメッセージが表示されます。

  6. [Finish] (終了)をクリックして、変更を確定します。

タスクの結果

新しいHDFS接続は、[Repository] (リポジトリー)ツリービューの[Hadoop cluster] (Hadoopクラスター)ノードの下に表示されます。これを使用して、これらのスキーマをTalendジョブで再利用するために、接続されたHDFSシステムに保存されているファイルのスキーマを定義し、一元管理することができます。