ジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、Cloudera接続設定を完成させます。この設定はジョブごとに有効です。
使用するClouderaまたはHortonworksのバージョンが[Version] (バージョン)ドロップダウンリストに見つからない場合は、Studio内のダイナミックディストリビューションの設定を使用してディストリビューションに追加することもできます。
- ディストリビューションのバージョンリストに、[Builtin] (組み込み)というラベルの付いたバージョンがいくつかあります。Studioのリリース時に、これらのバージョンがダイナミックディストリビューションメカニズムを使用してTalendによって追加され、Studioと共に提供されました。これらはTalendによって認定され公式にサポートされているので、すぐに使用できます。
使用するClouderaのバージョンがこのドロップダウンリストに見つからない場合は、Studio内のダイナミックディストリビューションの設定を使用してディストリビューションに追加することもできます。
- ディストリビューションのバージョンリストに、[Builtin] (組み込み)というラベルの付いたバージョンがいくつかあります。Studioのリリース時に、これらのバージョンがダイナミックディストリビューションメカニズムを使用してTalendによって追加され、Studioと共に提供されました。これらはTalendによって認定され公式にサポートされているので、すぐに使用できます。
このセクションの情報は、Talend Data Fabric またはビッグデータ対応のTalend製品のいずれかにサブスクライブしているユーザーだけを対象とします。また、Talend Open Studio for Big Dataユーザーは対象外です。
手順
タスクの結果
-
接続の設定後、必須ではありませんがSparkのパフォーマンスを調整できます。調整する場合は、以下に記載のプロセスに従います。
-
Apache Spark BatchジョブでSparkを調整 (Spark Batchジョブの場合)
-
Apache Spark StreamingジョブでSparkを調整 (Spark Streamingジョブの場合)
-
-
問題が発生した場合にSparkジョブのデバッグや再開ができるよう、[Run] (実行)ビューの[Spark configuration] (Spark設定)タブでロギングとチェックポインティングを有効にしておくことをお勧めします:
-
MapReduceまたはApache Sparkのバッチジョブの実行にCloudera V5.5+を使用している場合は、Cloudera Navigatorを活用して特定のデータフローの来歴を追跡し、ジョブによりこのデータフローがどのように生成されたかを調べることができます。