ストリートインシデントに関する集計データをEMRに書き込む - 7.3

Amazon EMR distribution

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション > Amazon EMR

手順

  1. tFileOutputParquetコンポーネントをダブルクリックすると、[Component] (コンポーネント)ビューが開きます。

    例え

  2. [Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにして、前のステップで設定したtS3Configurationコンポーネントを選択します。
  3. tFileOutputParquettAggregateRowの出力側からスキーマを取得するように、[Sync columns] (カラムの同期)をクリックします。
  4. [Folder/File] (フォルダー/ファイル)フィールドに、tS3Configurationで指定されたS3バケットに集計データを保管するために使われるフォルダーの名前を入力します。たとえば、/sample_userと入力すると、ランタイムに、ジョブの出力を保管するためにバケットのルートにあるsample_userというフォルダーが使われます。
  5. [Action] (アクション)ドロップダウンリストで、使うバケット内に使うフォルダーがまだ存在しない場合は[Create] (作成)を、このフォルダーが既に存在する場合は[Overwrite] (上書き)を選択します。
  6. [Run] (実行)をクリックしてビューを開き、[Spark Configuration] (Spark設定)タブをクリックして、Spark接続を設定するビューを開きます。
  7. 最終的にリモートSparkクラスターに送信する前に、ジョブをローカルでテストするには、[Use local mode] (ローカルモードを使用)チェックボックスをオンにします。

    ローカルモードでは、ジョブを実行するためのSpark環境がStudioによって即座に構築されます。計算の実行のために、ローカルマシンの各プロセッサーがSparkワーカーとして使用されます。

  8. このモードでは、ローカルファイルシステムが使われます。したがって、リモートファイルシステムへの接続情報を提供するtS3ConfigurationtHDFSConfigurationなどのコンポーネントがジョブ内に配置されている場合は、これらの設定コンポーネントを無効にします。
  9. tFileOutputParquet[Component] (コンポーネント)ビューで、[Folder/File] (フォルダー/ファイル)フィールドをローカルディレクトリーに変更し、[Action] (アクション)ドロップダウンリストで実行するアクションを適合させます。つまり、新しいフォルダーを作成するか、既存のフォルダーを上書きします。
  10. [Run] (実行)タブで[Basic Run] (基本実行)をクリックし、このビューで[Run] (実行)をクリックしてジョブをローカルで実行して、設計ロジックをテストします。
  11. ジョブが正しく実行されたら、[Run] (実行)タブの[Spark Configuration] (Spark構成)ビューで[Use local mode] (ローカルモードを使用する)チェックボックスをオフにしてから、ジョブのデザインワークスペースで設定コンポーネントをアクティブにし、ローカルテストのためにtFileOutputParquetで行った変更を元に戻します。