Talend StudioのSparkまたはYARNでジョブを実行 - 8.0

Version
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > Sparkバッチ

SparkまたはYARNでジョブを実行

このチュートリアルでは、SparkまたはYARNで実行されるビッグデータバッチジョブを作成し、HDFSからデータを読み取ります。

Talend Studioプロジェクトを作成

プロジェクトの作成は、Talend Studioを使用するための最初のステップです。プロジェクトによって仕事をよりよく整理できるようになります。

手順

  1. [Create a new project] (新しいプロジェクトを作成)を選択します。
  2. プロジェクトの名前を入力します。

    TalendDemo
  3. [Create] (作成)をクリックします。
  4. [Finish] (終了)をクリックします。

タスクの結果

プロジェクトが開きます。Talend Studioで作業する準備が整いました。

SparkまたはYARNを使うビッグデータバッチジョブを作成

Talend Studioでは、ビッグデータ処理のためにSparkやMapReduceでBatchジョブやStreamingジョブを作成できます。

始める前に

[Integration] (統合)パースペクティブ([Window] (ウィンドウ) > パースペクティブ > [Integration] (統合))を選択します。

手順

  1. [Repository] (リポジトリー)で、[Job Designs] (ジョブデザイン)を右クリックします。
    1. [Create Big Data Batch Job] (ビッグデータバッチジョブを作成)をクリックします。
  2. [Name] (名前)フィールドに、名前を入力します。

    ReadHDFS_Spark_or_YARN
  3. フレームワークととして次のいずれかを選択します。
    • Spark
    • MapReduce (非推奨)
  4. オプション: [Purpose] (目的)フィールドに目的を入力します。

    Read and sort customer data
  5. オプション: [Description] (説明)フィールドに説明を入力します。

    Read and sort customer data stored in HDFS from a Big Data Batch Job running on Spark or YARN
    ヒント: [Purpose] (目的)[Description] (説明)を入力して整理します。
  6. [Finish] (終了)をクリックします。

タスクの結果

[Designer] (デザイナー)で空のジョブが開かれます。

Sparkでジョブを実行

このチュートリアルでは、SparkでTalend Studioジョブを実行する方法を学習します。

Sparkで実行するHDFS接続を設定

tHDFSConfigurationコンポーネントを使えば、HDFSファイルシステムをSparkに接続させることができます。

始める前に

手順

  1. [Repository] (リポジトリー)[Metadata] (メタデータ) > [Hadoop Cluster] (Hadoopクラスター)を展開した後に、目的のHadoopクラスターメタデータを展開します。
    1. HadoopクラスターのメタデータがあるHDFSフォルダーを展開します。
    2. HDFSメタデータを[Designer] (デザイナー)にドラッグ&ドロップします。
    3. tHDFSConfigurationコンポーネントを選択します。
      [Hadoop Configuration Update Confirmation] (Hadoop設定情報のアップデートの確認)ウィンドウが開きます。
  2. [OK]をクリックします。

タスクの結果

Talend Studioは、クラスターのメタデータに対応するようSpark設定をアップデートします。

次のタスク

[Run] (実行)ビューで、[Spark Configuration] (Spark設定)をクリックします。実行がHDFS接続メタデータと共に設定されます。

SparkでHDFS接続からデータを読み取る

事前定義済みHDFSメタデータを使えば、SparkのHDFSファイルシステムからデータを読み取ることができます。

始める前に

手順

  1. [Designer] (デザイナー)に入力コンポーネントを追加します。

    tFileInputDelimitedコンポーネントを追加します。
  2. コンポーネントをダブルクリックします。
    [Storage] (ストレージ)の下で、コンポーネントがtHDFSConfigurationコンポーネント情報と共に設定されます。
  3. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックします。
  4. プラスボタンをクリックしてデータカラムを追加します。

    1. CustomerID
    2. FirstName
    3. LastName
  5. [Types] (タイプ)カラムを選択します。

    CustomerIDには、Integer Typeを選択します。
  6. [OK]をクリックします。
  7. [File Name] (ファイル名)フィールドにファイルパスと目的のファイルの名前を入力します。

タスクの結果

以上でtFileInputDelimitedコンポーネントが設定され、SparkのHDFSからデータを読み取れるようになります。

YARNでジョブを実行

このチュートリアルでは、YARNでTalend Studioジョブを実行する方法を学習します。

YARNで実行するHDFS接続を設定

tHDFSConfigurationコンポーネントを使えば、HDFSファイルシステムをYARNに接続させることができます。

始める前に

手順

  1. [Repository] (リポジトリー)[Metadata] (メタデータ) > [Hadoop Cluster] (Hadoopクラスター)を展開した後に、目的のHadoopクラスターメタデータを展開します。
    1. HadoopクラスターのメタデータがあるHDFSフォルダーを展開します。
    2. HDFSメタデータを[Designer] (デザイナー)にドラッグ&ドロップします。
    3. 入力コンポーネントを選択します。

    tFileInputDelimitedコンポーネントを選択します。
    [Hadoop Configuration Update Confirmation] (Hadoop設定情報のアップデートの確認)ウィンドウが開きます。
  2. [OK]をクリックします。

タスクの結果

Talend Studioは、クラスターのメタデータに対応するようYARN設定をアップデートします。

次のタスク

[Run] (実行)ビューで、[Hadoop Configuration] (Hadoop設定)をクリックします。実行がHDFS接続メタデータと共に設定されます。

YARNでHDFS接続からデータを読み取る

事前定義済みHDFSメタデータを使えば、YARNのHDFSファイルシステムからデータを読み取ることができます。

始める前に

手順

  1. 入力コンポーネントをダブルクリックします。
    コンポーネントがHDFSのメタデータ情報と共に設定されます。
  2. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックします。
  3. プラスボタンをクリックしてデータカラムを追加します。

    1. CustomerID
    2. FirstName
    3. LastName
  4. [Types] (タイプ)カラムを選択します。

    CustomerIDには、Integer Typeを選択します。
  5. [OK]をクリックします。
  6. [File Name] (ファイル名)フィールドにファイルパスと目的のファイルの名前を入力します。

タスクの結果

以上でtFileInputDelimitedコンポーネントが設定され、YARNのHDFSからデータを読み取れるようになります。