Définition du lignage des données avec Atlas - 7.3

HortonWorks

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs > Distributions Hadoop > Hortonworks
Last publication date
2024-02-22

Si vous utilisez Hortonworks Data Platform V2.4.0 ou supérieure pour exécuter vos Jobs MapReduce et Spark Batch et que vous avez installé Atlas dans votre cluster Hortonworks, vous pouvez utiliser Atlas pour visualiser le lignage d'un flux de données en particulier afin de découvrir comment ces données sont générées par un Job.

Le lignage comprend tous les composants utilisés dans ce Job et les modifications du schéma entre les composants.

Ce type de Job est disponible lorsque vous avez souscrit à l'un des produits Talend avec Big Data ou à Talend Data Fabric.

Si vous utilisez Hortonworks Data Platform V2.4, le Studio supporte uniquement Atlas 0.5. Si vous utilisez Hortonworks Data Platform.V2.5, le Studio supporte uniquement Atlas 0.7.

Procédure

Dans la Vue de configuration, qui correspond à la vue Hadoop configuration de l'onglet Run pour un Job MapReduce et à la vue Spark configuration de l'onglet Run pour un Job Spark Batch, cochez la case Use Atlas.

Lorsque cette option est activée, vous devez configurer les paramètres suivants :

  • Atlas URL : saisissez l'emplacement d'Atlas auquel se connecter. C'est généralement http://nom_de_votre_noeud_atlas:port

  • Dans les champs Username et Password, saisissez respectivement les informations d'authentification pour accéder à Atlas.

  • Set Atlas configuration folder : si votre cluster Atlas contient des propriétés personnalisées, comme le SSL ou le délai avant suspension de la lecture, cochez cette case et, dans le champ qui s'affiche, saisissez un chemin vers un répertoire de votre machine locale, puis placez le fichier atlas-application.properties de votre Atlas dans ce répertoire. Ainsi, votre Job peut utiliser ces propriétés personnalisées.

    Vous devez demander à l'administrateur de votre cluster ces fichiers de configuration. Pour plus d'informations concernant ce fichier, consultez la section Client Configs dans la page Atlas configuration (en anglais).

  • Die on error : cochez cette case pour arrêter l'exécution du Job lorsque des problèmes relatifs à Atlas surviennent, par exemple des problèmes de connexion à Atlas.

    Sinon, laissez cette case décochée pour que votre Job continue à s'exécuter.

Si vous utilisez Hortonworks Data Platform V2.4, le Studio supporte uniquement Atlas 0.5. Si vous utilisez Hortonworks Data Platform.V2.5, le Studio supporte uniquement Atlas 0.7.

Résultats

Lorsque vous exécutez ce Job, le lignage est automatiquement généré dans Atlas.

Lorsque l'exécution du Job est terminée, effectuez une seconde recherche dans Atlas pour trouver les informations de lignage écrites par ce Job et pour y lire le lignage.

Dans Atlas, le lignage écrit par un Job consiste en deux types d'entités :
  • le Job même

  • les composants du Job utilisant des schémas de données, comme le tRowGenerator ou le tSortRow. Les composants de connexion ou de configuration comme le tHDFSConfiguration ne sont pas pris compte étant donné que ces composants n'utilisent pas de schéma.