Accéder au contenu principal Passer au contenu complémentaire

Big Data : nouvelles fonctionnalités

Améliorations apportées à la conception de Jobs Spark

Fonctionnalité

Description

Disponible dans

ADLS Gen2 Azure Data Lake Storage Generation2 est à présent supporté avec les plateformes Big Data suivantes :
  • Databricks V5.5 LTS
  • Cloudera CDH V6.1
  • Hortonworks Data Platform V3.1

Tous les produits Talend incluant Big Data

Snowflake Les composants Snowflake pour Spark Batch sont à présent généralement disponibles.

Tous les produits Talend incluant Big Data

Jeux de données natifs
Dans les Jobs Spark Batch, le support des jeux de données Spark natifs a été ajouté à d'autres composants, afin d'obtenir de meilleures performances. Pour bénéficier de cette amélioration, les utilisateurs et utilisatrices doivent utiliser Spark V2.0 ou supérieure avec les composants suivants :
  • tFileInputParquet et tFileOutputParquet
  • tFileInputDelimited et tFileOutputDelimited
  • tFileInputFullRow
  • tFileInputPositional et tFileInputRegex
  • tSortRow, tExtractDelimitedFields, tExtractPositionalFields, tExtractRegexFields, tExtractXMLField, tExtractJSONFields, tNormalize, tReplace, tReplicate, tSample, tUnite et tSchemaComplianceCheck.
Les composants suivants nécessitent Spark V2.1 ou supérieure pour supporter les jeux de données Spark.
  • tAggregateRow
  • Jointure Left Outer Join dans le tMap, en plus des fonctionnalités du tMap ayant le support des jeux de données depuis la version 7.2 du Studio Talend.

Tous les produits Talend incluant Big Data

Delta Lake Les composants tDeltaLakeInput et tDeltaLakeOutput sont à présent généralement disponibles.

Tous les produits Talend incluant Big Data

Apache Spark V2.4 Cette nouvelle version d'Aparch Spark est supportée avec plus de plateformes Big Data dans des Jobs Spark Batch et Spark Streaming. Les plateformes supportant Spark V2.4 sont :
  • Cloudera CDH6.1.1
  • Databricks V5.5
  • Google Cloud Dataproc V1.4

Tous les produits Talend incluant Big Data

Statut du Job Avec Databricks, les utilisateurs et utilisatrices peuvent configurer la fréquence à laquelle le Studio demande au cluster Spark le statut des Jobs.

Tous les produits Talend incluant Big Data

tS3Configuration Avec Amazon EMR, les utilisateurs et utilisatrices peuvent appliquer une politique de bucket S3.

Tous les produits Talend incluant Big Data

tAggregateRow Dans les Jobs Spark Batch, la fonction de compte distinct (Count) et la fonction Sample Standard Deviation Algorithm function ont été ajoutées.

Tous les produits Talend incluant Big Data

Nouvelles versions des pilotes
Le support des versions suivantes des pilotes a été ajouté dans les composants associés :
  • Pilote Redshift JDBC 1.23.7.1061
  • Pilote MySQL V8.0.18
  • Pilote Teradata JDBC 16.20.00.13
  • Pilote JDBC MariaDB V2.5.3 dans les composants JDBC
  • Pilote JDBC Snowflake 3.11.x

Tous les produits Talend incluant Big Data

Nouveaux composants disponibles

Deux nouveaux composants sont disponibles : le tAzureAdlsGen2Input et le tAzureAdlsGen2Output.

Tous les produits Talend incluant Big Data

Support des plateformes Big Data

Fonctionnalité

Description

Disponible dans

Databricks
  • Databricks V5.5 LTS est à présent supporté par les Jobs Spark.
  • Le support des clusters transitoires Azure Databricks a été ajouté.

Tous les produits Talend incluant Big Data

Hortonworks Data Platform
  • Hortonworks Data Platform V3.1 est à présent supporté.
  • Les versions V3.x d'Hortonworks Data Platform sont maintenant généralement disponibles parmi les distributions dynamiques.

Tous les produits Talend incluant Big Data

Google Cloud Dataproc

  • Google Cloud Dataproc V1.4 est supporté.
  • Dans les Jobs Standard, le tGoogleDataprocManage supporte toutes les régions.

Tous les produits Talend incluant Big Data

Configurations Hadoop personnalisées Lorsqu'ils définissent des connexions à Cloudera ou Hortonworks dans le Repository, les utilisateurs et utilisatrices peuvent à présent spécifier un fichier Jar personnalisé fournissant les paramètres de connexion à l'environnement Hadoop à utiliser.

Tous les produits Talend incluant Big Data

Autres composants

Fonctionnalité

Description

Disponible dans

Kafka Kafka V2.2.1 est à présent officiellement supporté avec :
  • Cloudera CDH V6.1
  • Hortonworks Data Platform V3.1
  • Les composants Kafka dans les Jobs Standard

Tous les produits Talend incluant Big Data

Google BigQuery
  • Dans le tBigQueryBulkExec, les utilisateurs et utilisatrices peuvent à présent déposer des tables avec un compte de service ou leurs identifiants OAuth 2.0.
  • Les composants BigQuery supportent à présent l'API client Google Cloud 1.25.10.

Tous les produits Talend incluant Big Data

Couchbase
  • Le tCouchbaseOutput permet à présent aux utilisateurs et utilisatrices d'effectuer des requêtes N1QL avec des paramètres.
  • Les documents non JSON sont supportés.

Tous les produits Talend incluant Big Data

CXF

CXF V3.3.4 est à présent supporté dans les composants suivants :

  • tDBFSConnection, tDBFSGet, tDBFSPut
  • tHCatalogInput, tHCatalogLoad, tHCatalogOperation, tHCatalogOutput

Tous les produits Talend incluant Big Data

MongoDB

Le support de MongoDB V4.2.x a été ajouté aux composants MongoDB dans les Jobs Standard.

Tous les produits Talend incluant Big Data

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !