変換済みのジョブの編集 - 7.0

Talend Real-Time Big Data Platform入門ガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Real-Time Big Data Platform
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
必要に応じてコンポーネントを更新し、Sparkフレームワーク内で実行されるデータ変換プロセスを確定します。

始める前に

  • Talendジョブが実行されているクライアントマシンが、使用するHadoopクラスターのノードのホスト名を認識できることを確認します。そのためには、そのHadoopクラスターのサービスに使用するIPアドレス/ホスト名のマッピングエントリをクライアントマシンのhostsファイルに追加します。

    たとえば、Hadoopネームノードサーバーのホスト名がtalend-cdh550.weave.localで、IPアドレスが192.168.x.xの場合、マッピングエントリは192.168.x.x talend-cdh550.weave.localとなります。

  • 使用するHadoopクラスターが正しく構成され、実行されています。

    このユースケースで使用されるCloudera CDH V5.5クラスターは、デフォルトでSparkを統合します。

  • クラスターの管理者が、読み書き権限と、ユーザー名をHDFS内の関連データとディレクトリーへのアクセスに使用する権限を付与していること。

手順

  1. [Repository] (リポジトリー)aggregate_movie_director_spark_batchジョブをダブルクリックしてワークスペース内に開きます。

    tHDFSConfigurationコンポーネントが自動的に追加され、元のMapReduceジョブからHDFSに接続するための設定が継承されます。

    アイコンは、元のジョブに使用されていたコンポーネントが現在のジョブフレームワーク(Sparkバッチ)内に存在しないことを示します。この例ではtHDFSInputtHDFSOutputです。

  2. tHDFSInputをクリックして選択し、[Warning] (警告)ポップアップウィンドウで[OK]をクリックしてこのウィンドウを閉じます。
  3. キーボードのDeleteキーを押してtHDFSInputを削除します。
  4. ジョブのワークスペース内でtFileInputDelimitedと入力し、表示されるリストからこのコンポーネントを選択します。

    tFileInputDelimitedがワークスペースに追加されます。

  5. 同様に、tHDFSOutputtFileOutputDelimitedに置き換えます。
  6. [Repository] (リポジトリ)[Metadata] (メタデータ)ノードの下で、[Hadoop cluster] (Hadoopクラスター)ノードに続いてmy_cdh接続ノードとその子ノードを展開して、HDFSフォルダーの下でファイルメタデータの準備の説明に従って設定したmoviesスキーマメタデータノードを表示します。
  7. ジョブのワークスペースで、このスキーマメタデータノードを新しいtFileInputDelimitedコンポーネントにドロップします。
  8. このtFileInputDelimitedコンポーネントを右クリックし、コンテキストメニューから[Row] (行) > [Main] (メイン)の順に選択し、tMapをクリックしてtMapに接続します。
  9. tMapを右クリックし、コンテキストメニューから[Row] (行) > [out1]の順に選択し、新しいtFileOutputDelimitedをクリックして、tMapをこのコンポーネントに接続します。
  10. 新しいtFileOutputDelimitedコンポーネントをダブルクリックし、その[Component] (コンポーネント)ビューを開きます。
  11. [Folder] (フォルダー)フィールドで、結果を書き込む必要のあるディレクトリーを入力するか、そこに移動します。このシナリオでは/user/ychen/output_data/spark_batch/outです。動画のディレクターの名前を含むレコードがここに入ります。
  12. [Merge result to single file] (結果を1つのファイルにマージする)チェックボックスをオンにして、part-ファイル(通常はSparkで生成)を1つのファイルにマージします。

    [Merge file path] (ファイルパスのマージ)フィールドが表示されます。

  13. [Merge file path] (ファイルパスのマージ)フィールドに、part-ファイルをマージするファイルを入力するか、またはそこに移動します。

    このシナリオでは、このファイルは/user/ychen/output_data/spark_batch/out/mergedです。

  14. tMapから[reject] (リジェクト)リンクを受け取る別のtFileOutputDelimitedコンポーネントをダブルクリックし、その[Component] (コンポーネント)ビューを開きます。
  15. [Folder] (フォルダー)フィールドで/user/ychen/output_data/spark_batch/rejectへのディレクトリーを設定します。
  16. [Run] (実行)ビューで[Spark configuration] (Spark設定)タブをクリックし、Hadoop/Spark接続メタデータが元のジョブから適切に継承されていることを確認します。

    Sparkバッチジョブに対する所定のHadoop/Sparkディストリビューションへの接続を定義するには、常にこの[Spark Configuration] (Spark設定)タブを使用する必要があります。また、この接続はジョブごとに有効になります。

  17. ジョブの実行されるマシンのホスト名をSparkクラスターが解決できるかどうかが不明な場合は、[Define the driver hostname or IP address] (ドライバーホスト名またはIPアドレスを指定)チェックボックスをオンにして、フィールドが表示されたら、このマシンのIPアドレスを入力します。

    このチェックボックスをオフのままにしておくと、Sparkクラスターは、127.0.0.1に置かれているマシン(クラスター自体の中にあるマシン)の中でSparkドライバーを探します。

  18. [F6]を押してジョブを実行します。

タスクの結果

[Run] (実行)ビューがStudioの下側に自動的に開き、このジョブの実行の進行状況を示します。

ジョブが完了すると、たとえばHDFSシステムのWebコンソール内で、出力がHDFSに書き込まれていることを確認できます。