Propriétés du tDBFSGet Standard - Cloud - 8.0

DBFS

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants File (Intégration) > DBFS
Gouvernance de données > Systèmes tiers > Composants File (Intégration) > DBFS
Qualité et préparation de données > Systèmes tiers > Composants File (Intégration) > DBFS
Last publication date
2024-02-21

Ces propriétés sont utilisées pour configurer le composant tDBFSGet s'exécutant dans le framework de Jobs Standard.

Le composant tDBFSGet Standard appartient aux familles Big Data et Fichier.

Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.

Basic settings

Property type

Peut être Built-In ou Repository.

Built-In : aucune propriété n'est stockée de manière centrale.

Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant.

Use an existing connection

Cochez cette case et, dans la liste Component List, cliquez sur le composant HDFS de connexion duquel vous souhaitez réutiliser les informations de connexion précédemment définies.

Notez que lorsqu'un Job contient un Job parent et un Job enfant, la liste Component List présente uniquement les composants de connexion du Job du même niveau.

Endpoint

Dans le champ Endpoint, saisissez l'adresse URL de votre espace de travail Azure Databricks. Vous pouvez trouver cette URL dans la Palette Overview de votre espace de travail Databricks sur votre portail Azure. Par exemple, cette URL peut se présenter comme ceci https://adb-$workspaceId.$random.azuredatabricks.net.

Token

Cliquez sur le bouton [...] à côté du champ Token pour saisir le jeton d'authentification généré pour votre compte utilisateur·rice Databricks. Vous pouvez générer ou trouver ce jeton sur la page User settings de votre espace de travail Databricks. Pour plus d'informations, consultez Jetons d'accès personnels dans la documentation Azure.

DBFS directory

Dans le champ DBFS directory, entrez le chemin d'accès pointant vers les données à utiliser dans le système de fichiers DBFS.

Local directory

Parcourez votre système ou saisissez le chemin d'accès au répertoire local dans lequel stocker les fichiers copiés depuis DBFS.

Overwrite file

Option permettant d'écraser ou non les fichiers avec le nouveau fichier.

Include subdirectories

Cochez cette case si le ou les répertoires sélectionné(s) contiennent des sous-dossiers.

Fichiers

Dans la zone Files, les champs à renseigner sont :

-File mask : saisissez le nom du fichier qui sera sélectionné dans HDFS. L'utilisation d'une expression régulière est possible.

- New name : renommez le fichier obtenu.

Die on error

Cochez cette case pour arrêter l'exécution du Job lorsqu'une erreur survient.

Décochez la case pour ignorer les lignes en erreur et terminer le traitement des lignes sans erreur.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de traitement du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Utilisation

Règle d'utilisation

Ce composant combine une connexion DBFS et une extraction de données, ainsi il peut être utilisé comme sous-Job à composant unique pour copier des données de DBFS vers un répertoire local défini par l'utilisateur ou l'utilisatrice.

Il s'exécute en standalone et ne génère ni de flux d'entrée ni de flux de sortie pour les autres composants. Il est souvent relié au Job à l'aide d'un lien OnSubjobOk ou OnComponentOk, en fonction du contexte.