Big Data - Cloud - 8.0

Notes de version de Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud API Services Platform
Talend Cloud Big Data
Talend Cloud Big Data Platform
Talend Cloud Data Integration
Talend Cloud Data Management Platform
Talend Cloud Real-Time Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Talend Cloud API Designer
Talend Cloud API Tester
Talend Cloud Data Inventory
Talend Cloud Data Preparation
Talend Cloud Data Stewardship
Talend Cloud Management Console
Talend Cloud Pipeline Designer
Talend Data Preparation
Talend Data Stewardship
Content
Installation et mise à niveau
Notes de version
Last publication date
2023-09-28

Fonctionnalité

Description

Disponible dans

Nouveau composant tManagePartitions permettant de gérer des partitions de jeux de données Spark dans des Jobs Spark Batch Un nouveau composant, le tManagePartitions, est disponible dans vos Jobs Spark Batch. Il remplace le tPartition, qui est déprécié. Ce composant vous permet de gérer vos partitions en définissant visuellement la manière dont un jeu de données d'entrée est partitionné.

Disponible dans :

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Tous les produits Talend avec Big Data nécessitant souscription

Support du partitionnement automatique avec le tManagePartitions dans des Jobs Spark Batch Une nouvelle option Auto est disponible dans la liste déroulante Partitioning strategy (Stratégie du partitionnement) de la vue Basic settings (Paramètres simples) du tManagePartitions dans vos Jobs Spark. Cette option vous permet de calculer la meilleure stratégie à appliquer sur un jeu de données.

Disponible dans :

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Tous les produits Talend avec Big Data nécessitant souscription

Nouveau composant tCacheClear permettant de vider le cache Spark dans des Jobs Spark Batch Un nouveau composent, le tCacheClear, est disponible dans vos Jobs Spark Batch. Ce composant vous permet de supprimer de la mémoire le cache RDD (Resilient Distributed Datasets) stocké par le tCacheOut.

Vider le cache est une bonne pratique. Par exemple, lorsque la couche de cache est pleine, Spark commence à détruire les données de la mémoire à l'aide de la stratégie LRU (least recently used, utilisation la moins récente). Ainsi, ne pas faire persister les données vous permet de rester en contrôle des données supprimées. Plus il y a d'espace dans la mémoire, plus elle peut être utilisée par Spark pour l'exécution, par exemple pour construire des maps de hachage

Disponible dans :

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Tous les produits Talend avec Big Data nécessitant souscription

Support du format Kudu avec le tImpalaCreateTable dans des Jobs Standard Le format Kudu est supporté lors de la création d'une table avec le tImpalaCreateTable dans vos Jobs Standard. Lorsque vous travaillez avec une table Kudu, vous pouvez également configurer le nombre de partitions à créer avec le nouveau paramètre Kudu partition (Partition Kudu).

Disponible dans :

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Tous les produits Talend avec Big Data nécessitant souscription

Nouveau composant tHBaseDeleteRow permettant de supprimer des lignes depuis une table HBase dans des Jobs Standard Un nouveau composant, le HBaseDeleteRow, est disponible dans vos Jobs Standard. Ce composant vous permet de supprimer les lignes contenant des données provenant d'une table HBase en fournissant de nouvelles clés de lignes.

Disponible dans :

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Tous les produits Talend avec Big Data nécessitant souscription

Possibilité d'exécuter des Jobs Spark Batch avec les composants HBase en utilisant Knox avec CDP Public Cloud Vous pouvez utiliser Knox avec HBase dans vos Jobs Spark Batch s'exécutant sur CDP Public Cloud. Vous pouvez configurer Knox dans les paramètres du tHBaseConfiguration ou dans l'assistant de métadonnées HBase.

Disponible dans :

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Tous les produits Talend avec Big Data nécessitant souscription

Support de la lecture parallèle depuis une table HBase dans des Jobs Spark Batch Une nouvelle option Partition by table regions (Partitionner par régions des tables) est disponible dans la vue Basic settings (Paramètres simples) du tHBaseInput dans vos Jobs Spark Batch. Cette option vous permet de lire en parallèle les données d'une table HBase à l'aide de ses régions.

Disponible dans :

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Tous les produits Talend avec Big Data nécessitant souscription