La distribution peut être :
-
Databricks
-
Qubole
-
Amazon EMR
Pour cette distribution,
Talend supporte les modes :
Note InformationsImportant : Delta Lake n'est pas supporté sur Amazon EMR.
-
Cloudera
Pour cette distribution,
Talend supporte les modes :
-
Standalone
-
Yarn client
-
Yarn cluster
-
Google Cloud Dataproc
Pour cette distribution,
Talend supporte les modes :
-
HortonWorks
Pour cette distribution,
Talend supporte les modes :
-
MapR
Pour cette distribution,
Talend supporte les modes :
-
Standalone
-
Yarn client
-
Yarn cluster
-
Microsoft HDInsight
Pour cette distribution,
Talend supporte les modes :
-
Cloudera Altus
Pour cette distribution,
Talend supporte les modes :
-
Yarn cluster
Votre cluster Altus doit être exécuté sur les fournisseurs de Cloud suivants :
Lorsqu'un Job utilise Avro pour déplacer des données à travers ses composants, il est recommandé de configurer votre cluster pour utiliser Kryo afin de gérer les types Avro. Cela permet non seulement d'éviter
ce problème Avro connu mais également d'améliorer les performances. La propriété Spark à configurer dans votre cluster est :
spark.serializer org.apache.spark.serializer.KryoSerializer
Si vous ne trouvez pas votre distribution dans la liste déroulante, cela signifie que la distribution à laquelle vous souhaitez vous connecter n'est pas officiellement supportée par Talend . Dans ce cas, vous pouvez sélectionner Custom puis la version de Spark, dans la liste Spark version, du cluster auquel vous connecter. Cliquez sur le bouton [...] pour afficher une boîte de dialogue dans laquelle vous pouvez :
-
Sélectionner Import from existing version pour importer une distribution de base officiellement supportée et ajouter manuellement les autres Jars requis non fournis par cette distribution.
-
Sélectionner Import from zip pour importer le fichier .zip de configuration pour la distribution personnalisée à utiliser. Ce fichier .zip doit contenir les bibliothèques des différents éléments Hadoop/Spark et le fichier d'index de ces bibliothèques.
Notez que les versions personnalisées ne sont pas officiellement supportées par Talend . Talend et sa Communauté fournissent l'opportunité de vous connecter à des versions personnalisées depuis le Studio mais ne peuvent garantir que la configuration de la version choisie sera simple. Il est recommandé de configurer ces connexions si vous avez une expérience suffisante de Hadoop et de Spark pour gérer par vous-mêmes les problèmes pouvant survenir.
Pour un exemple étape par étape expliquant comment se connecter à une distribution personnalisée et partager cette connexion, consultez Hortonworks.