tDataprepRun - Cloud - 8.0

Data Preparation

Version
Cloud
8.0
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Talend Data Preparation
Content
Création et développement > Systèmes tiers > Composants Data Preparation
Gouvernance de données > Systèmes tiers > Composants Data Preparation
Qualité et préparation de données > Systèmes tiers > Composants Data Preparation

Ce composant applique une préparation faite à l'aide de Talend Data Preparation dans un Job d'intégration de données standard.

Le composant tDataprepRun récupère une préparation faite à l'aide de Talend Data Preparation et l'applique sur un jeu de données.

Remarque : Ce composant n'est pas intégré par défaut à votre Studio Talend. Vous devez installer les composants Talend Data Preparation depuis la section Data Integration > Components du Gestionnaire des fonctionnalités, avant de pouvoir l'utiliser dans votre Studio Talend. Pour plus d'informations, consultez Installer les fonctionnalités à l'aide du Gestionnaire des fonctionnalités.

Pour plus de technologies supportées par Talend, consultez Composants Talend.

Selon le produit Talend que vous utilisez, ce composant peut être utilisé dans un framework de Jobs, dans plusieurs, ou dans tous les frameworks :

  • Standard : consultez Propriétés du tDataprepRun Standard.

    Remarque : Pour référence, le tDataprepRun peut traiter des jeux de données contenant jusqu'à 10 millions de lignes et 100 colonnes (7 Go), à une vitesse d'environ 200 lignes par seconde (150 ko/s) pour une préparation contenant 60 étapes (ces chiffres sont indicatifs et susceptibles de varier). Pour de meilleures performances ou pour des jeux de données contenant plus de 10 millions de lignes, pensez à utiliser des Jobs Spark.

    Le composant de ce framework est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform et dans Talend Data Fabric.

  • Spark Batch : consultez Propriétés du tDataprepRun pour Apache Spark Batch.

    Le composant de ce framework est disponible dans tous les produits Talend avec Big Data nécessitant une souscription et dans Talend Data Fabric.

  • Spark Streaming : consultez Propriétés du tDataprepRun pour Apache Spark Steaming.

    Ce composant est disponible dans Talend Real Time Big Data Platform et dans Talend Data Fabric.