ディストリビューションには以下が含まれます:
-
Databricks
-
Amazon EMR
このディストリビューションについては
Talendでは以下がサポートされます:
情報メモ重要: Amazon EMR上で、Delta Lakeはサポートされていません。
-
Cloudera
このディストリビューションについては
Talendでは以下がサポートされます:
-
スタンドアロン
-
Yarnクライアント
-
Yarnクラスター
-
Google Cloud Dataproc
このディストリビューションについては
Talendでは以下がサポートされます:
-
Hortonworks
このディストリビューションについては
Talendでは以下がサポートされます:
-
MapR
このディストリビューションについては
Talendでは以下がサポートされます:
-
スタンドアロン
-
Yarnクライアント
-
Yarnクラスター
-
Microsoft HDInsight
このディストリビューションについては
Talendでは以下がサポートされます:
-
Cloudera Altus
このディストリビューションについては
Talendでは以下がサポートされます:
-
Yarnクラスター
Altusクラスターは、以下のクラウドプロバイダーで実行する必要があります:
データはAvroに依存してコンポーネント間のデータ移動を行っているので、Kryoを使ってAvroタイプを処理するようお使いのクラスターを設定することをお勧めします。これによって
Avroに関するこの既知の問題を回避できるだけでなく、本来のパフォーマンス向上も実現できます。お使いのクラスターで設定が必要なSparkプロパティは:
spark.serializer org.apache.spark.serializer.KryoSerializer
このドロップダウンリストで対応するディストリビューションが見つからなければ、接続したいディストリビューションをTalendが公式にはサポートしていないことを意味します。その場合、[Custom] (カスタム)を選択してから、接続するクラスターの[Spark version] (Sparkバージョン)を選択し、[+]ボタンをクリックして、表示されるダイアログボックスで以下の選択を行います:
-
[Import from existing version] (既存のバージョンからインポート)を選択すると、正式にサポートされているディストリビューションをベースとしてインポートしてから、ベースディストリビューションで提供されていない他の必要なjarファイルを追加できます。
-
[Import from zip] (zipからインポート)を選択すると、使用するカスタムディストリビューションの設定zipファイルをインポートできます。Zipファイルには、Hadoop/Sparkの各種エレメントのライブラリーおよびライブラリーのインデックスファイルを含める必要があります。
Talendはカスタムバージョンを公式にはサポートしていません。Talendとそのコミュニティでは、Studio Talendからカスタムバージョンに接続するための方法を紹介していますが、選択したバージョンの設定がスムーズに機能するかどうかは保証できません。そのような接続のセットアップは、HadoopおよびSparkについてどんな問題でもご自身で対処できる十分な経験をお持ちの場合のみ行ってください。
カスタムディストリビューションの接続方法、および接続の共有方法のステップ例は、Hortonworksをご覧ください。