Big Data : nouvelles fonctionnalités - 7.3

Notes de version de Talend Data Fabric

EnrichVersion
7.3
EnrichProdName
Talend Data Fabric
task
Installation et mise à niveau
Release Notes

Améliorations apportées à la conception de Jobs Spark

Fonctionnalité

Description

ADLS Gen2 Azure Data Lake Storage Generation2 est à présent supporté avec les plateformes Big Data suivantes :
  • Databricks V5.5 LTS
  • Cloudera CDH V6.1
  • Hortonworks Data Platform V3.1
Snowflake Les composants Snowflake pour Spark Batch sont officiellement supportés. Ils ne sont plus en aperçu technique.
Jeux de données natifs
Dans les Jobs Spark Batch, le support des jeux de données Spark natifs a été ajouté à d'autres composants, afin d'obtenir de meilleures performances. Pour bénéficier de cette amélioration, les utilisateurs et utilisatrices doivent utiliser Spark V2.0 ou supérieure avec les composants suivants :
  • tFileInputParquet et tFileOutputParquet
  • tFileInputDelimited et tFileOutputDelimited
  • tFileInputFullRow
  • tFileInputPositional et tFileInputRegex
  • tSortRow, tExtractDelimitedFields, tExtractPositionalFields, tExtractRegexFields, tExtractXMLField, tExtractJSONFields, tNormalize, tReplace, tReplicate, tSample, tUnite et tSchemaComplianceCheck.
Les composants suivants nécessitent Spark V2.1 ou supérieure pour supporter les jeux de données Spark.
  • tAggregateRow
  • Jointure Left Outer Join dans le tMap, en plus des fonctionnalités du tMap ayant le support des jeux de données depuis la version 7.2 du Studio Talend.
Delta Lake Les composants tDeltaLakeInput et tDeltaLakeOutput ne sont plus en aperçu technique.
Apache Spark V2.4 Cette nouvelle version d'Aparch Spark est supportée avec plus de plateformes Big Data dans des Jobs Spark Batch et Spark Streaming. Les plateformes supportant Spark V2.4 sont :
  • Cloudera CDH6.1.1
  • Databricks V5.5
  • Google Cloud Dataproc V1.4
Statut du Job Avec Databricks, les utilisateurs et utilisatrices peuvent configurer la fréquence à laquelle le Studio demande au cluster Spark le statut des Jobs.
tS3Configuration Avec Amazon EMR, les utilisateurs et utilisatrices peuvent appliquer une politique de bucket S3.
tAggregateRow Dans les Jobs Spark Batch, la fonction de compte distinct (Count) et la fonction Sample Standard Deviation Algorithm function ont été ajoutées.
Nouvelles versions des pilotes
Le support des versions suivantes des pilotes a été ajouté dans les composants associés :
  • Pilote Redshift JDBC 1.23.7.1061
  • Pilote MySQL V8.0.18
  • Pilote Teradata JDBC 16.20.00.13
  • Pilote JDBC MariaDB V2.5.3 dans les composants JDBC
  • Pilote JDBC Snowflake 3.11.x

Nouveaux composants disponibles

Deux nouveaux composants sont disponibles : le tAzureAdlsGen2Input et le tAzureAdlsGen2Output.

Support des plateformes Big Data

Fonctionnalité

Description

Databricks
  • Databricks V5.5 LTS est à présent supporté par les Jobs Spark.
  • Le support des clusters transitoires Azure Databricks a été ajouté.
Hortonworks Data Platform
  • Hortonworks Data Platform V3.1 est à présent supporté.
  • Les versions V3.x d'Hortonworks Data Platform sont maintenant officiellement disponibles parmi les distributions dynamiques. Elles ne sont plus en aperçu technique.

Google Cloud Dataproc

  • Google Cloud Dataproc V1.4 est supporté.
  • Dans les Jobs Standard, le tGoogleDataprocManage supporte toutes les régions.
Configurations Hadoop personnalisées Lorsqu'ils définissent des connexions à Cloudera ou Hortonworks dans le Repository, les utilisateurs et utilisatrices peuvent à présent spécifier un fichier Jar personnalisé fournissant les paramètres de connexion à l'environnement Hadoop à utiliser.

Autres composants

Fonctionnalité

Description

Kafka Kafka V2.2.1 est à présent officiellement supporté avec :
  • Cloudera CDH V6.1
  • Hortonworks Data Platform V3.1
  • Les composants Kafka dans les Jobs Standard
Google BigQuery
  • Dans le tBigQueryBulkExec, les utilisateurs et utilisatrices peuvent à présent déposer des tables avec un compte de service ou leurs identifiants OAuth 2.0.
  • Les composants BigQuery supportent à présent l'API client Google Cloud 1.25.10.
Couchbase
  • Le tCouchbaseOutput permet à présent aux utilisateurs et utilisatrices d'effectuer des requêtes N1QL avec des paramètres.
  • Les documents non JSON sont supportés.

CXF

CXF V3.3.4 est à présent supporté dans les composants suivants :

  • tDBFSConnection, tDBFSGet, tDBFSPut
  • tHCatalogInput, tHCatalogLoad, tHCatalogOperation, tHCatalogOutput

MongoDB

Le support de MongoDB V4.2.x a été ajouté aux composants MongoDB dans les Jobs Standard.