出力をHDFSに書き込む - 7.0

Talend Data Fabric入門ガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
2つの出力コンポーネントが、予想される動画データとリジェクトされた動画データをHDFS内の別々のディレクトリーに書き込むように設定されます。

始める前に

  • Talendジョブが実行されているクライアントマシンが、使用するHadoopクラスターのノードのホスト名を認識できることを確認します。そのためには、そのHadoopクラスターのサービスに使用するIPアドレス/ホスト名のマッピングエントリをクライアントマシンのhostsファイルに追加します。

    たとえば、Hadoopネームノードサーバーのホスト名がtalend-cdh550.weave.localで、IPアドレスが192.168.x.xの場合、マッピングエントリは192.168.x.x talend-cdh550.weave.localとなります。

  • 使用するHadoopクラスターが正しく構成され、実行されています。

  • クラスターの管理者が、読み書き権限と、ユーザー名をHDFS内の関連データとディレクトリーへのアクセスに使用する権限を付与していること。

手順

  1. out1リンクを受け取るtHDFSOutputコンポーネントをダブルクリックします。

    [Basic settings] (基本設定)ビューがStudioの下側に開きます。

  2. [Folder] (フォルダー)フィールドで、結果を書き込む必要のあるディレクトリーを入力するか、そこに移動します。このシナリオでは/user/ychen/output_data/mapreduce/outです。動画のディレクターの名前を含むレコードがここに入ります。
  3. [Action] (アクション)ドロップダウンリストから[Overwrite] (上書き)を選択します。このようにして、ターゲットディレクトリーが存在すれば上書きされます。
  4. [Merge result to single file] (結果を1つのファイルにマージする)チェックボックスをオンにして、part-ファイル(通常はMapReduceで生成)を1つのファイルにマージします。[Merge file path] (ファイルパスのマージ)フィールドが表示されます。
  5. [Merge file path] (ファイルパスのマージ)フィールドに、part-ファイルをマージするファイルを入力するか、またはそこに移動します。

    このシナリオでは、このファイルは/user/ychen/output_data/mapreduce/out/mergedです。

  6. 同じオペレーションを繰り返して、rejectリンクを受け取るtFileOutputDelimitedコンポーネントを設定します。ただし、ディレクトリは[Folder] (フォルダー)フィールドで/user/ychen/output_data/mapreduce/rejectに設定し、[Merge result to single file] (結果を1つのファイルにマージする)チェックボックスはオフのままにしておきます。
  7. [Run] (実行)ビューで[Hadoop configuration] (Hadoop設定)タブをクリックし、Hadoop接続メタデータが[Repository] (リポジトリ)から適切にインポートされていることを確認します。

    MapReduceジョブに対する所定のHadoopディストリビューションへの接続を定義するには、常にこの[Hadoop Configuration] (Hadoop設定)タブを使用する必要があります。また、この接続はジョブごとに有効になります。

  8. [F6]を押してジョブを実行します。

タスクの結果

[Run] (実行)ビューがStudioの下側に自動的に開き、このジョブの実行の進行状況を示します。

ジョブ自体も進行状況をグラフィックに示します。

ジョブが完了すると、たとえばHDFSシステムのWebコンソール内で、出力がHDFSに書き込まれていることを確認できます。

マージされたファイルも作成されています。