Définition du lignage des données avec Atlas - 6.4

MapReduce

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Création et développement > Création de Jobs > Frameworks de Jobs > MapReduce
EnrichPlatform
Studio Talend

Si vous utilisez Hortonworks Data Platform V2.4.0 ou supérieure et que vous avez installé Atlas dans votre cluster Hortonworks, vous pouvez utiliser Atlas pour tracer le lignage d'un flux de données en particulier afin de découvrir comment ces données sont générées par un Job.

Le lignage comprend tous les composants utilisés dans ce Job et les modifications du schéma entre les composants.

Ce type de Job est disponible lorsque vous avez souscrit à l'un des produits Big Data de Talend ou à Talend Data Fabric.

Si vous utilisez Hortonworks Data Platform V2.4, le Studio supporte uniquement Atlas 0.5. Si vous utilisez Hortonworks Data Platform.V2.5, le Studio supporte uniquement Atlas 0.7.

Procédure

Dans la Vue de configuration, qui correspond à la Vue Hadoop configuration de l'onglet Run pour un Job MapReduce et à la Vue Spark configuration de l'onglet Run pour un Job Spark Batch, cochez la case Use Atlas.

Lorsque cette option est activée, vous devez configurer les paramètres suivants :

  • Atlas URL : saisissez l'emplacement d'Atlas auquel se connecter. C'est généralement http://nom_de_votre_noeud_atlas:port

  • Dans les champs Username et Password, saisissez respectivement l'identifiant et le mot de passe d'authentification pour accéder à Atlas.

  • Set Atlas configuration folder : si votre cluster Atlas contient des propriétés personnalisées, comme le SSL ou le délai avant suspension de la lecture, cochez cette case et, dans le champ qui s'affiche, saisissez un chemin vers un répertoire de votre machine locale, puis placez le fichier atlas-application.properties de votre Atlas dans ce répertoire. Ainsi, votre Job peut utiliser ces propriétés personnalisées.

    Vous devez demander à l'administrateur de votre cluster ces fichiers de configuration. Pour plus d'informations concernant ce fichier, consultez la section Client Configs dans la page Atlas configuration (en anglais).

  • Die on error : cochez cette case pour arrêter l'exécution du Job lorsque des problèmes relatifs à Atlas surviennent, par exemple des problèmes de connexion à Atlas.

    Sinon, laissez cette case décochée pour que votre Job continue à s'exécuter.

Si vous utilisez Hortonworks Data Platform V2.4, le Studio supporte uniquement Atlas 0.5. Si vous utilisez Hortonworks Data Platform.V2.5, le Studio supporte uniquement Atlas 0.7.

Résultats

Lorsque vous exécutez ce Job, le lignage est automatiquement généré dans Atlas.

Lorsque l'exécution du Job est terminé, effectuez une seconde recherche dans Atlas pour trouver les informations de lignage écrites par ce Job et pour y lire le lignage.

Dans Atlas, le lignage écrit par un Job est constitué de deux types d'entités :
  • le Job lui-même

  • les composants dans le Job utilisant des schémas de données, comme le tRowGenerator ou le tSortRow. Les composants de connexion ou de configuration comme le tHDFSConfiguration ne sont pas pris compte étant donné que ces composants n'utilisent pas de schéma.