ファイルメタデータの準備 - 7.0

Talend Big Data Platform入門ガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio

[Repository] (リポジトリー)で、HDFSに保存されているファイルのメタデータを設定すると、関連するビッグデータコンポーネント内のスキーマを直接再利用でき、関連する各パラメーターを手動で定義する必要がありません。

処理が必要なmovies.csvファイルは使用中のHDFSシステムに保存されているため、そのスキーマを取得して、そのメタデータを[Repository] (リポジトリ)内で設定することができます。

directors.txtファイルのスキーマも取得できますが、以下に説明する取得手順で意図的に無視されます。このシナリオでは、ジョブ内のスキーマを手動で定義する方法をデモンストレーションするために、このdirectors.txtファイルが使用されるためです。

始める前に

  • Talend Studioを起動し、統合パースペクティブを開いていること。

  • ソースファイルmovies.csvdirectors.txtファイルをHDFSにアップロードするの説明に従ってHDFSにロードされていること。

  • 使用するHadoopクラスターへの接続と、このクラスターのHDFSシステムへの接続が、[Repository] (リポジトリー)内の[Hadoop cluster] (Hadoopクラスター)ノードから設定済みであること。

    設定していない場合は、Hadoop接続の手動セットアップHDFSへの接続を設定するを参照して、接続を作成します。

  • 使用するHadoopクラスターが適切に設定され、実行されており、そのディストリビューションと使用するHDFSフォルダーに対する適切なアクセス権限を持っていること。

  • Talend Studioがインストールされているクライアントマシンが、使用するHadoopクラスターのノードのホスト名を認識できることを確認する必要があります。そのためには、そのHadoopクラスターのサービスに使用するIPアドレス/ホスト名のマッピングエントリをクライアントマシンのhostsファイルに追加します。

    たとえば、Hadoopネームノードサーバーのホスト名がtalend-cdh550.weave.localで、IPアドレスが192.168.x.xの場合、マッピングエントリは192.168.x.x talend-cdh550.weave.localとなります。

手順

  1. [Repository] (リポジトリー)ツリービューの[Metadata] (メタデータ)の下で、[Hadoop cluster] (Hadoopクラスター)ノードを展開します。
  2. 作成したHadoop接続を展開し、その下のHDFSフォルダーを展開します。

    この例では、my_cdh Hadoop接続です。

  3. このHDFSフォルダー内のHDFS接続を右クリックし、コンテキストメニューから[Retrieve schema] (スキーマの取得)を選択します。

    このシナリオでは、HDFS接続にはcdh_hdfsという名前が付いています。

    [Schema] (スキーマ)ウィザードが表示され、HDFS内のファイルまで移動することができます。

  4. ファイルツリーを展開してmovies.csvファイルを表示します。そこからスキーマを取得し、選択する必要があります。

    このシナリオでは、movies.csvファイルは次のディレクトリに保存されています: /user/ychen/input_data

  5. [Next] (次へ)をクリックして、ウィザードに取得されたスキーマを表示します。

    動画データのスキーマがウィザードに表示され、データの最初の行は自動的にカラム名として使用されます。

    使用しているデータの最初の行がこのように使用されない場合は、HDFSへの接続を設定するの説明に従ってHDFS接続を作成したときに[Header] (ヘッダー)設定をどうしたかをレビューする必要があります。

  6. [Finish] (終了)をクリックして、変更を確定します。

タスクの結果

これで、[Repository] (リポジトリ)ツリービュー内で使用しているHDFS接続の下にファイルメタデータが表示されるようになりました。