ストリートインシデントに関する集計データをEMRに書き込む

ストリートインシデントに関する集計データをEMRに書き込む - 7.3

Amazon S3

Version

7.3

Language

日本語

Product

Talend Big Data

Talend Big Data Platform

Talend Data Fabric

Talend Data Integration

Talend Data Management Platform

Talend Data Services Platform

Talend ESB

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Talend Studio

Content

ジョブデザインと開発 > サードパーティーシステム > Amazonサービス > Amazon S3

データガバナンス > サードパーティーシステム > Amazonサービス > Amazon S3

データクオリティとプレパレーション > サードパーティーシステム > Amazonサービス > Amazon S3

Last publication date

2024-02-22

手順

tFileOutputParquetコンポーネントをダブルクリックすると、[Component] (コンポーネント)ビューが開きます。
例
[Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにして、前のステップで設定したtS3Configurationコンポーネントを選択します。
tFileOutputParquetがtAggregateRowの出力側からスキーマを取得するように、[Sync columns] (カラムを同期)をクリックします。
[Folder/File] (フォルダー/ファイル)フィールドに、tS3Configurationで指定されたS3バケットに集計データを保管するために使われるフォルダーの名前を入力します。たとえば、/sample_userと入力すると、ランタイムに、ジョブの出力を保管するためにバケットのルートにあるsample_userというフォルダーが使われます。
[Action] (アクション)ドロップダウンリストで、使うバケット内に使うフォルダーがまだ存在しない場合は[Create] (作成)を、このフォルダーが既に存在する場合は[Overwrite] (上書き)を選択します。
[Run] (実行)をクリックしてビューを開き、[Spark configuration] (Spark設定)タブをクリックして、Spark接続を設定するビューを開きます。
最終的にリモートSparkクラスターに送信する前に、ジョブをローカルでテストするには、[Use local mode] (ローカルモードを使用)チェックボックスをオンにします。

ローカルモードでは、ジョブを実行するためのSpark環境がStudioによって即座に構築されます。計算の実行のために、ローカルマシンの各プロセッサーがSparkワーカーとして使用されます。
このモードでは、ローカルファイルシステムが使われます。したがって、リモートファイルシステムへの接続情報を提供するtS3ConfigurationやtHDFSConfigurationなどのコンポーネントがジョブ内に配置されている場合は、これらの設定コンポーネントを無効にします。
tFileOutputParquetの[Component] (コンポーネント)ビューで、[Folder/File] (フォルダー/ファイル)フィールドをローカルディレクトリーに変更し、[Action] (アクション)ドロップダウンリストで実行するアクションを適合させます。つまり、新しいフォルダーを作成するか、既存のフォルダーを上書きします。
[Run] (実行)タブで[Basic Run] (基本実行)をクリックし、このビューで[Run] (実行)をクリックしてジョブをローカルで実行して、設計ロジックをテストします。
ジョブが正しく実行されたら、[Run] (実行)タブの[Spark Configuration] (Spark構成)ビューで[Use local mode] (ローカルモードを使用する)チェックボックスをオフにしてから、ジョブのデザインワークスペースで設定コンポーネントをアクティブにし、ローカルテストのためにtFileOutputParquetで行った変更を元に戻します。

手順

例