入力データの設定 - 7.0

Talend Data Fabric入門ガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
HDFSからジョブにデータをロードするようにtHDFSInputコンポーネントとtFileInputDelimitedコンポーネントを設定します。

始める前に

  • ソースファイルmovies.csvdirectors.txtファイルをHDFSにアップロードするの説明に従ってHDFSにロードされていること。

  • [Repository] (リポジトリ)[Hadoop cluster] (Hadoopクラスター)ノードの下で、movie.csvファイルのメタデータがHDFSフォルダー内に設定されていること。

    設定していない場合は、ファイルメタデータの準備を参照してメタデータを作成します。

手順

  1. [Repository] (リポジトリ)[Metadata] (メタデータ)ノードの下で、[Hadoop cluster] (Hadoopクラスター)ノードに続いてmy_cdh Hadoop接続ノードとその子ノードを展開して、HDFSフォルダーの下でファイルメタデータの準備の説明に従って設定したmoviesスキーマメタデータノードを表示します。
  2. ジョブのワークスペースで、このスキーマメタデータノードをmovie tHDFSInputコンポーネントにドロップします。
  3. movie tHDFSInputコンポーネントをダブルクリックし、その[Component] (コンポーネント)ビューを開きます。

    このtHDFSInputは、HDFS設定と動画メタデータを[Repository] (リポジトリ)から自動的に再利用し、関連するパラメーターをその[Basic settings] (基本設定)ビューで定義しています。

  4. director tFileInputDelimitedコンポーネントをダブルクリックし、その[Component] (コンポーネント)ビューを開きます。
  5. [Edit schema] (スキーマの編集)の横の[...]ボタンをクリックし、スキーマエディターを開きます。
  6. [+]ボタンを2回クリックして2つの行を追加し、[Column] (カラム)カラムで名前をそれぞれIDNameに変更します。
  7. [OK]をクリックしてこれらの変更を確定し、ポップアップ表示されるダイアログボックスで求められるプロパゲーションを承認します。
  8. [Folder/File] (フォルダー/ファイル)フィールドで、ディレクターデータが保存されているディレクトリーを入力するか、そこに移動します。ファイルをHDFSにアップロードするで説明しているように、このデータは/user/ychen/input_data/directors.txtに書き込まれています。
  9. [Field separator] (フィールド区切り)フィールドにコンマ(,)を入力します。ディレクターデータではこれが区切り文字として使用されているためです。

タスクの結果

これで、動画データとディレクターデータをジョブにロードするように入力コンポーネントが設定されました。