Configurer le lignage de données avec Cloudera Navigator - 7.0

Guide utilisateur de Talend Big Data Platform Studio

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
Création et développement
EnrichPlatform
Studio Talend

Pourquoi et quand exécuter cette tâche

Le support de Cloudera Navigator a été ajouté aux Jobs MapReduce et Spark de Talend.

Si vous utilisez une version Cloudera 5.5 ou supérieure pour exécuter vos Jobs, vous pouvez utiliser Cloudera Navigator pour suivre le lignage d'un flux de données afin de découvrir comment ce flux de données a été généré par un Job MapReduce ou Spark, y compris les composants utilisés dans ce Job et les modifications des schémas entre les composants.

Par exemple, vous avez créé le Job MapReduce suivant et souhaitez générer des informations de lignage à son sujet :

Procédez comme suit :

Procédure

  1. Cliquez sur Run pour ouvrir la vue et cliquez sur l'onglet Hadoop configuration (pour un Job Spark, l'onglet à utiliser est Spark configuration).
  2. Dans la liste Distribution, sélectionnez Cloudera et, dans la liste Version, sélectionnez Cloudera 5.5.
    La case Use Cloudera Navigator s'affiche.

    Lorsque cette option est activée, vous devez configurer les paramètres suivants :

    • Username et Password : informations d'authentification utilisées pour vous connecter à votre Cloudera Navigator.

    • Cloudera Navigator URL : saisissez l'emplacement du Cloudera Navigator pour vous connecter.

    • Cloudera Navigator Metadata URL : saisissez l'emplacement où sont stockées les métadonnées (Navigator Metadata).

    • Activate the autocommit option : cochez cette case pour que le Cloudera Navigator génère le lignage du Job courant à la fin de son exécution.

      Comme cette option force le Cloudera Navigator à générer des lignages de toutes ses entités disponibles, comme les fichiers et répertoires HDFS, les requêtes Hive ou les scripts Pig, il n'est pas recommandé de l'utiliser dans un environnement de production, car elle ralentit le Job.

    • Kill the job if Cloudera Navigator fails : cochez cette case pour arrêter l'exécution du Job lorsque la connexion à Cloudera Navigator échoue.

      Sinon, laissez cette case décochée pour que votre Job continue à s'exécuter.

    • Disable SSL validation : cochez cette case pour que votre Job se connecte au Cloudera Navigator sans processus de validation SSL.

      Cette fonctionnalité est conçue pour simplifier les tests de vos Jobs mais il n'est pas recommandé de l'utiliser dans un cluster en production.

Résultats

La connexion à Cloudera Navigator a été configurée. Lorsque vous exécutez ce Job, le lignage est automatiquement généré dans Cloudera Navigator.

Notez que vous devez configurer les autres paramètres dans l'onglet Hadoop configuration pour exécuter le Job avec succès. Pour plus d'informations, consultez l'exemple pour un Job MapReduce ou Spark, selon vos besoins, dans le Guide de prise en main de votre Studio.

Une fois l'exécution du Job terminé, effectuez une recherche dans Cloudera Navigator pour chercher les données écrites par ce Job et voir le lignage de ces données dans Cloudera Navigator.

Si vous comparez le graphique de lignage au Job dans le Studio, vous pouvez voir que chaque composant est présenté dans ce graphique.

Cloudera Navigator utilise une bibliothèque SDK Cloudera pour fournir des fonctionnalités et doit être compatible avec la version de cette bibliothèque SDK. La version de votre Cloudera Navigator est déterminée par le Cloudera Manager installé avec votre distribution Cloudera.

Cependant, toutes les versions de Cloudera Navigator n'ont pas de version SDK compatible. Pour plus d'informations concernant les versions de Cloudera SDK et leurs versions compatibles de Cloudera Navigator, consultez la documentation Cloudera à l'adresse Cloudera Navigator SDK Version Compatibility (en anglais).

Pour plus d'informations concernant les versions de Cloudera Navigator supportées par le Studio, consultez Versions supportées de Cloudera Navigator pour les Jobs Talend.