Big Data : nouvelles fonctionnalités - 8.0

Notes de version de Talend Data Fabric

Version
8.0
Language
Français (France)
EnrichDitaval
Data Fabric
Product
Talend Data Fabric
Content
Installation et mise à niveau
Notes de version

Fonctionnalité

Description

Support de Spark Universal Vous pouvez à présent exécuter vos Jobs Spark à l'aide de Spark Universal avec Spark 2.4.x ou Spark 3.0.x, soit en mode Local, soit en mode Yarn cluster (Cluster YARN).

Spark Universal est un mécanisme permettant au Studio Talend d'être compatible avec toutes les distributions Big Data disponibles pour une version de Spark donnée, via uniquement un fichier JAR de configuration Hadoop contenant toutes les informations nécessaires à l'établissement d'une connexion au cluster en mode Yarn cluster (Cluster YARN).

Spark Universal renforce l'agilité en proposant de passer d'un mode Spark à l'autre, d'une distribution à l'autre ou d'un environnement à l'autre.

Vous pouvez configurer votre connexion Spark Universal depuis la vue Spark configuration (Configuration de Spark) de votre Job ou depuis l'assistant de métadonnées Hadoop Cluster Connection (Connexion au cluster Hadoop), dans l'arborescence du référentiel (Repository) :
Support de Kubernetes avec Spark Universal 3.1.x Vous pouvez à présent exécuter vos Jobs Spark à l'aide de Spark Universal avec Spark 3.1.x, en mode Kubernetes.
Vous pouvez configurer votre connexion Spark Universal avec Kubernetes depuis la vue Spark configuration (Configuration de Spark) de votre Job ou depuis l'assistant de métadonnées Hadoop Cluster Connection (Connexion au cluster Hadoop), dans l'arborescence du référentiel (Repository) :
Support du schéma dynamique dans les composants Spark Batch Vous pouvez à présent utiliser les schémas dynamiques dans vos Jobs Spark avec les composants suivants :
  • tDeltaLakeInput
  • tDeltaLakeOutput
  • tFileInputParquet
  • tFileOutputParquet
  • tJDBCInput
  • tJDBCOutput
  • tLogRow
  • tSqlRow
Support de nouvelles distributions

Disponible dans les versions mensuelles 7.3

Vous pouvez utiliser les distributions suivantes pour vos Jobs Spark :
  • Microsoft HD Insight 4.0 avec Spark 2.4 (fournie dans la version mensuelle 7.3 R2020-06)
  • CDP Private Cloud Base 7.1 avec Spark 2.4 (fournie dans la version mensuelle 7.3 R2020-06)
  • Databricks 7.3 LTS avec Spark 3.0 (fournie dans la version mensuelle 7.3 R2021-02)
  • CDP Public Cloud Data Hub (fournie dans la version mensuelle 7.3 R2021-03)
  • AWS EMR 6.2 avec Spark 3.0 (fournie dans la version mensuelle 7.3 R2021-05)
  • Azure Synapse avec Spark 3.0 (fournie dans la version mensuelle 7.3 R2021-08)
Support de Spark 3.0 en mode local pour les Jobs Spark

Fournie dans la version mensuelle 7.3 R2021-02

Talend supporte à présent Spark 3.0 en mode local lors de l'exécution de Jobs Spark dans le Studio Talend.
Remarque : Les éléments suivants ne supportent pas Spark 3.0 en mode local :
  • ADLS Gen2
  • tCassandraInput et tCassandraOutput
  • tElasticSearchInput et tElasticSearchOutput
Support de Knox pour CDP Public Cloud Data Hub sur AWS

Fournie dans la version mensuelle 7.3 R2021-06

Lorsque vous utilisez une instance de CDP Public Cloud Data Hub sur AWS avec CDP 7.1 et versions supérieures en mode YARN cluster et HDFS, vous pouvez à présent vous authentifier à l'aide de Knox, soit dans la vue Spark configuration (Configuration de Spark) de vos Jobs Spark, soit dans l'assistant de métadonnées Hadoop Cluster Connection (Connexion au cluster Hadoop), dans la vue Repository (Référentiel). Knox vous permet de fournir un seul point d'authentification en utilisant uniquement le SSO.
Support de Hive Warehouse Connector avec Cloudera CDP 7.1.x

Disponible dans la version mensuelle 7.3 R2021-10

Vous pouvez à présent utiliser Hive Warehouse Connector pour obtenir des données de et écrire des données dans des tables transactionnelles gérées par Hive dans des Jobs Spark Batch, grâce aux nouveaux composants suivants :

  • tHiveWarehouseConfiguration : ce composant permet la réutilisation de la configuration de connexion Hive Warehouse Connector vers Hive dans le même Job.
  • tHiveWarehouseInput : ce composant extrait des données de Hive et envoie les données au composant suivant à l'aide de Hive Warehouse Connector.
  • tHiveWarehouseOutput : ce composant se connecte à une base de données Hive et écrit les données qu'il reçoit dans une table Hive ou dans un répertoire HDFS, à l'aide de Hive Warehouse Connector.

Avec Hive Warehouse Connector, le Studio Talend supporte les tables transactionnelles gérées par Hive, vous permettant d'avoir un contrôle optimal sur les transactions de vos données.