メイン コンテンツをスキップする 補完的コンテンツへスキップ

ストリートインシデントに関する集計データをEMRに書き込む

手順

  1. tFileOutputParquetコンポーネントをダブルクリックすると、[Component] (コンポーネント)ビューが開きます。

  2. [Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにして、前のステップで設定したtS3Configurationコンポーネントを選択します。
  3. tFileOutputParquettAggregateRowの出力側からスキーマを取得するように、[Sync columns] (カラムを同期)をクリックします。
  4. [Folder/File] (フォルダー/ファイル)フィールドに、tS3Configurationで指定されたS3バケットに集計データを保管するために使われるフォルダーの名前を入力します。たとえば、/sample_userと入力すると、ランタイムに、ジョブの出力を保管するためにバケットのルートにあるsample_userというフォルダーが使われます。
  5. [Action] (アクション)ドロップダウンリストで、使うバケット内に使うフォルダーがまだ存在しない場合は[Create] (作成)を、このフォルダーが既に存在する場合は[Overwrite] (上書き)を選択します。
  6. [Run] (実行)をクリックしてビューを開き、[Spark configuration] (Spark設定)タブをクリックして、Spark接続を設定するビューを開きます。
  7. 最終的にリモートSparkクラスターに送信する前に、ジョブをローカルでテストするには、[Use local mode] (ローカルモードを使用)チェックボックスをオンにします。

    ローカルモードでは、ジョブを実行するためのSpark環境がStudioによって即座に構築されます。計算の実行のために、ローカルマシンの各プロセッサーがSparkワーカーとして使用されます。

  8. このモードでは、ローカルファイルシステムが使われます。したがって、リモートファイルシステムへの接続情報を提供するtS3ConfigurationtHDFSConfigurationなどのコンポーネントがジョブ内に配置されている場合は、これらの設定コンポーネントを無効にします。
  9. tFileOutputParquet[Component] (コンポーネント)ビューで、[Folder/File] (フォルダー/ファイル)フィールドをローカルディレクトリーに変更し、[Action] (アクション)ドロップダウンリストで実行するアクションを適合させます。つまり、新しいフォルダーを作成するか、既存のフォルダーを上書きします。
  10. [Run] (実行)タブで[Basic Run] (基本実行)をクリックし、このビューで[Run] (実行)をクリックしてジョブをローカルで実行して、設計ロジックをテストします。
  11. ジョブが正しく実行されたら、[Run] (実行)タブの[Spark Configuration] (Spark構成)ビューで[Use local mode] (ローカルモードを使用する)チェックボックスをオフにしてから、ジョブのデザインワークスペースで設定コンポーネントをアクティブにし、ローカルテストのためにtFileOutputParquetで行った変更を元に戻します。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。