Configurer le lignage de données avec Atlas - 6.5

Talend Real-Time Big Data Platform Studio Guide utilisateur

Version
6.5
Language
Français (France)
Product
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Qualité et préparation de données

Le support d'Apache Atlas a été ajouté aux Jobs MapReduce et Spark de Talend.

Si vous utilisez Hortonworks Data Platform V2.4 ou supérieure pour exécuter vos Jobs et qu'Apache Atlas a été installé dans votre cluster Hortonworks, vous pouvez utiliser Atlas afin de visualiser le lignage d'un flux de données pour découvrir comment ces données ont été générées par un Job MapReduce ou Spark, notamment dans les composants utilisés dans ce Job et voir les modifications des schémas entre les composants.

Si vous utilisez Hortonworks Data Platform V2.4, le Studio supporte uniquement Atlas 0.5. Si vous utilisez Hortonworks Data Platform.V2.5, le Studio supporte uniquement Atlas 0.7.

Par exemple, si vous avez créé le Job Spark Batch suivant et que vous souhaitez générer les informations de lignage le concernant dans Atlas :

Dans ce Job, le tRowGenerator est utilisé pour générer les données d'entrée, le tMap et le tSortRow sont utilisés pour traiter les données et les autres composants pour écrire les données en sortie dans différents formats.

Procédez comme suit :

  1. Cliquez sur Run pour ouvrir la vue et cliquez sur l'onglet Spark configuration (pour un Job MapReduce, l'onglet à utiliser est Hadoop configuration).

  2. Dans la liste Distribution, sélectionnez HortonWorks et dans la liste Version, sélectionnez Hortonworks Data Platform V2.5.0, par exemple.

    La case Use Atlas s'affiche.

    Lorsque cette option est activée, vous devez configurer les paramètres suivants :

    • Atlas URL : saisissez l'emplacement d'Atlas auquel se connecter. C'est généralement http://nom_de_votre_noeud_atlas:port

    • Dans les champs Username et Password, saisissez respectivement l'identifiant et le mot de passe d'authentification pour accéder à Atlas.

    • Set Atlas configuration folder : si votre cluster Atlas contient des propriétés personnalisées, comme le SSL ou le délai avant expiration de la lecture, cochez cette case et, dans le champ qui s'affiche, saisissez un chemin vers un répertoire de votre machine locale, puis placez le fichier atlas-application.properties de votre Atlas dans ce répertoire. Ainsi, votre Job peut utiliser ces propriétés personnalisées.

      Vous devez demander à l'administrateur de votre cluster ces fichiers de configuration. Pour plus d'informations concernant ce fichier, consultez la section Client Configs dans la page Atlas configuration (en anglais).

    • Die on error : cochez cette case pour arrêter l'exécution du Job lorsque des problèmes relatifs à Atlas surviennent, par exemple des problèmes de connexion à Atlas.

      Sinon, laissez cette case décochée pour que votre Job continue à s'exécuter.

La connexion à Atlas a été configurée. Lorsque vous exécutez ce Job, le lignage est automatiquement généré dans Atlas.

Notez que vous devez configurer les autres paramètres dans l'onglet Spark configuration pour exécuter le Job avec succès. Pour plus d'informations, consultez l'exemple pour un Job MapReduce ou Spark, selon vos besoins, dans le Guide de prise en main de votre Studio.

Lorsque l'exécution du Job est terminée, effectuez une seconde recherche dans Atlas pour trouver les informations de lignage écrites par ce Job et pour y lire le lignage.

Lire le lignage

Dans Atlas, le lignage écrit par un Job consiste en deux types d'entités :

  • le Job même

  • les composants du Job utilisant des schémas de données, comme le tRowGenerator ou le tSortRow. Les composants de connexion ou de configuration comme le tHDFSConfiguration ne sont pas pris compte étant donné que ces composants n'utilisent pas de schéma.

Le Job d'exemple génère six entités : une pour le Job et cinq pour les composants.

  • Talend pour toutes les entités générées par le Job,

  • TalendComponent pour toutes les entités des composants.,

  • TalendJob pour toutes les entités de Jobs.

Vous pouvez cliquer directement sur l'un de ces libellés dans Atlas pour afficher les entités correspondantes.

Par exemple, vous pouvez cliquer sur TalendJob pour afficher une liste des entités enregistrées dans Atlas et sélectionner un Job pour voir ses informations de lignage. L'image suivante affiche la manière dont le flux de données est géré, dans le Job utilisé comme exemple :