SUR CETTE PAGE

Accéder au contenu principal

CETTE PAGE VOUS A-T-ELLE AIDÉ ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Définition d'un lignage de données avec Cloudera Navigator

Si vous utilisez Cloudera V5.5+ pour exécuter vos Jobs MapReduce ou vos Jobs Apache Spark Batch, vous pouvez utiliser Cloudera Navigator pour visualiser le lignage d'un flux de données en particulier pour découvrir comment ces données sont générées par un Job.

Le lignage comprend tous les composants utilisés dans ce Job et les modifications du schéma entre les composants.

Ce type de Job est disponible lorsque vous avez souscrit à l'un des produits Talend avec Big Data ou à Talend Data Fabric.

Procédure

Dans la Vue de configuration, qui correspond à la Vue Hadoop configuration de l'onglet Run pour un Job MapReduce et à la vue Spark configuration de l'onglet Run pour un Job Spark Batch, cochez la case Use Cloudera Navigator.

Lorsque cette option est activée, vous devez configurer les paramètres suivants :

Username et Password : informations d'authentification utilisées pour vous connecter à votre Cloudera Navigator.
Cloudera Navigator URL : saisissez l'emplacement du Cloudera Navigator pour vous connecter.
Cloudera Navigator Metadata URL : saisissez l'emplacement où sont stockées les métadonnées (Navigator Metadata).
Activate the autocommit option : cochez cette case pour que le Cloudera Navigator génère le lignage du Job courant à la fin de son exécution.

Comme cette option force le Cloudera Navigator à générer des lignages de toutes ses entités disponibles, comme les fichiers et répertoires HDFS, les requêtes Hive ou les scripts Pig, il n'est pas recommandé de l'utiliser dans un environnement de production, car elle ralentit le Job.
Kill the Job if Cloudera Navigator fails : cochez cette case pour arrêter l'exécution du Job lorsque la connexion à Cloudera Navigator échoue.

Sinon, laissez cette case décochée pour que votre Job continue à s'exécuter.
Disable SSL validation : cochez cette case pour que votre Job se connecte au Cloudera Navigator sans processus de validation SSL.

Cette fonctionnalité est conçue pour simplifier les tests de vos Jobs mais il n'est pas recommandé de l'utiliser dans un cluster en production.

Résultats

Lorsque vous exécutez ce Job, le lignage est automatiquement généré dans Cloudera Navigator.

Une fois l'exécution du Job terminé, effectuez une recherche dans Cloudera Navigator pour chercher les données écrites par ce Job et voir le lignage de ces données dans Cloudera Navigator.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici