ストリートインシデントに関する集計データをEMRに書き込む - 7.3

Amazon S3

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > Amazonサービス > Amazon S3
データガバナンス > サードパーティーシステム > Amazonサービス > Amazon S3
データクオリティとプレパレーション > サードパーティーシステム > Amazonサービス > Amazon S3
Last publication date
2024-02-22

手順

  1. tFileOutputParquetコンポーネントをダブルクリックすると、[Component] (コンポーネント)ビューが開きます。

  2. [Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにして、前のステップで設定したtS3Configurationコンポーネントを選択します。
  3. tFileOutputParquettAggregateRowの出力側からスキーマを取得するように、[Sync columns] (カラムを同期)をクリックします。
  4. [Folder/File] (フォルダー/ファイル)フィールドに、tS3Configurationで指定されたS3バケットに集計データを保管するために使われるフォルダーの名前を入力します。たとえば、/sample_userと入力すると、ランタイムに、ジョブの出力を保管するためにバケットのルートにあるsample_userというフォルダーが使われます。
  5. [Action] (アクション)ドロップダウンリストで、使うバケット内に使うフォルダーがまだ存在しない場合は[Create] (作成)を、このフォルダーが既に存在する場合は[Overwrite] (上書き)を選択します。
  6. [Run] (実行)をクリックしてビューを開き、[Spark configuration] (Spark設定)タブをクリックして、Spark接続を設定するビューを開きます。
  7. 最終的にリモートSparkクラスターに送信する前に、ジョブをローカルでテストするには、[Use local mode] (ローカルモードを使用)チェックボックスをオンにします。

    ローカルモードでは、ジョブを実行するためのSpark環境がStudioによって即座に構築されます。計算の実行のために、ローカルマシンの各プロセッサーがSparkワーカーとして使用されます。

  8. このモードでは、ローカルファイルシステムが使われます。したがって、リモートファイルシステムへの接続情報を提供するtS3ConfigurationtHDFSConfigurationなどのコンポーネントがジョブ内に配置されている場合は、これらの設定コンポーネントを無効にします。
  9. tFileOutputParquet[Component] (コンポーネント)ビューで、[Folder/File] (フォルダー/ファイル)フィールドをローカルディレクトリーに変更し、[Action] (アクション)ドロップダウンリストで実行するアクションを適合させます。つまり、新しいフォルダーを作成するか、既存のフォルダーを上書きします。
  10. [Run] (実行)タブで[Basic Run] (基本実行)をクリックし、このビューで[Run] (実行)をクリックしてジョブをローカルで実行して、設計ロジックをテストします。
  11. ジョブが正しく実行されたら、[Run] (実行)タブの[Spark Configuration] (Spark構成)ビューで[Use local mode] (ローカルモードを使用する)チェックボックスをオフにしてから、ジョブのデザインワークスペースで設定コンポーネントをアクティブにし、ローカルテストのためにtFileOutputParquetで行った変更を元に戻します。