手順
-
tFileOutputParquetコンポーネントをダブルクリックすると、[Component] (コンポーネント)ビューが開きます。
例
- [Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスをオンにして、前のステップで設定したtS3Configurationコンポーネントを選択します。
- tFileOutputParquetがtAggregateRowの出力側からスキーマを取得するように、[Sync columns] (カラムを同期)をクリックします。
- [Folder/File] (フォルダー/ファイル)フィールドに、tS3Configurationで指定されたS3バケットに集計データを保管するために使われるフォルダーの名前を入力します。たとえば、/sample_userと入力すると、ランタイムに、ジョブの出力を保管するためにバケットのルートにあるsample_userというフォルダーが使われます。
- [Action] (アクション)ドロップダウンリストで、使うバケット内に使うフォルダーがまだ存在しない場合は[Create] (作成)を、このフォルダーが既に存在する場合は[Overwrite] (上書き)を選択します。
- [Run] (実行)をクリックしてビューを開き、[Spark configuration] (Spark設定)タブをクリックして、Spark接続を設定するビューを開きます。
-
最終的にリモートSparkクラスターに送信する前に、ジョブをローカルでテストするには、[Use local mode] (ローカルモードを使用)チェックボックスをオンにします。
ローカルモードでは、ジョブを実行するためのSpark環境がStudioによって即座に構築されます。計算の実行のために、ローカルマシンの各プロセッサーがSparkワーカーとして使用されます。
- このモードでは、ローカルファイルシステムが使われます。したがって、リモートファイルシステムへの接続情報を提供するtS3ConfigurationやtHDFSConfigurationなどのコンポーネントがジョブ内に配置されている場合は、これらの設定コンポーネントを無効にします。
- tFileOutputParquetの[Component] (コンポーネント)ビューで、[Folder/File] (フォルダー/ファイル)フィールドをローカルディレクトリーに変更し、[Action] (アクション)ドロップダウンリストで実行するアクションを適合させます。つまり、新しいフォルダーを作成するか、既存のフォルダーを上書きします。
- [Run] (実行)タブで[Basic Run] (基本実行)をクリックし、このビューで[Run] (実行)をクリックしてジョブをローカルで実行して、設計ロジックをテストします。
- ジョブが正しく実行されたら、[Run] (実行)タブの[Spark Configuration] (Spark構成)ビューで[Use local mode] (ローカルモードを使用する)チェックボックスをオフにしてから、ジョブのデザインワークスペースで設定コンポーネントをアクティブにし、ローカルテストのためにtFileOutputParquetで行った変更を元に戻します。