MapReduceコンポーネントのドロップとリンク - 7.0

Talend Real-Time Big Data Platform入門ガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Real-Time Big Data Platform
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
MapReduceフレームワーク内で実行されるデータ変換プロセスを設計するために、ジョブのワークスペース内でMapReduceコンポーネントのオーケストレーションを行います。

始める前に

  • Talend Studioを起動し、統合パースペクティブを開いていること。

  • 空のジョブがMapReduceジョブの作成の説明に従って作成され、ワークスペース内に開いていること。

手順

  1. ジョブ内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントはtHDFSInputコンポーネントが2つ、tFileInputDelimitedコンポーネント、tMapコンポーネント、tHDFSOutputコンポーネント、tFileOutputDelimitedコンポーネントが各1つです。
    • コンポーネントtHDFSInputtFileInputDelimitedはそれぞれ、動画データとディレクターデータをHDFSから現在のジョブのデータフローにロードするために使用されます。

    • tMapコンポーネントは入力データの変換に使用されます。

    • コンポーネントtHDFSOuputtFileOutputDelimitedは、HDFS内の指定のディレクトリーに結果を書き込みます。

  2. tHDFSInputコンポーネントをダブルクリックしてこのラベルを編集可能にし、movieと入力してこのコンポーネントのラベルを変更します。
  3. directorのラベルtFileInputDelimitedにも同じ手順を実行します。
  4. movieのラベルが付いたtHDFSInputコンポーネントを右クリックし、コンテキストメニューから[Row] (行) > [Main] (メイン)の順に選択し、tMapをクリックしてtMapに接続します。これは、動画データがtMapに送信される際のメインリンクです。
  5. 同様に、[Row] (行) > [Main] (メイン)リンクを使用し、director tFileInputDelimitedコンポーネントをtMapに接続します。これは、ディレクターデータがルックアップデータとしてtMapに送信される際の[Lookup] (ルックアップ)リンクです。
  6. 同様に、[Row] (行) > [Main] (メイン)リンクを使用してtMapコンポーネントをtHDFSOutputコンポーネントに接続し、ポップアップウィザードで、このリンクにout1という名前を付け、[OK]をクリックしてこの変更を確定します。
  7. これらのオペレーションを繰り返し、[Row] (行) > [Main] (メイン)リンクを使用してtMapコンポーネントをtFileOutputDelimitedコンポーネントに接続し、rejectという名前を付けます。

タスクの結果

ワークスペース内で、ジョブ全体は以下のようになります。