Configurer le lignage de données avec Atlas (aperçu technique) - 6.2

Talend Big Data Platform Studio Guide utilisateur

EnrichVersion
6.2
EnrichProdName
Talend Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Le support d'Apache Atlas a été ajouté aux Jobs Talend MapReduce et Spark en tant qu'aperçu technique.

Si vous utilisez Hortonworks Data Platform V2.4 pour exécuter vos Jobs et qu'Apache Atlas a été installé dans votre cluster Hortonworks, vous pouvez utiliser Atlas afin de tracer le lignage d'un flux de données pour découvrir comment ces données ont été générées par un Job MapReduce ou Spark, notamment dans les composants utilisés dans ce Job et voir les modifications des schémas entre les composants.

Par exemple, si vous avez créé le Job Spark Batch suivant et que vous souhaitez générer les informations de lignage le concernant dans Atlas :

Dans ce Job, le tHDFSConfiguration (nommé c55_docker_01_HDFS) est utilisé pour définir la connexion à HDFS, le tRowGenerator est utilisé pour générer les données d'entrée, le tSortRow et le tReplicate sont utilisés pour traiter les données. Les autres composants sont utilisés pour écrire les données en sortie, dans différents formats.

Procédez comme suit :

  1. Cliquez sur l'onglet Run pour ouvrir cette vue et cliquez sur l'onglet Spark configuration (pour un Job MapReduce, l'onglet à utiliser est Hadoop configuration).

  2. Dans la liste Distribution, sélectionnez Hortonworks et, dans la liste Version, sélectionnez Hortonworks Data Platform V2.4.0.

    La case Use Atlas s'affiche.

    Lorsque cette option est activée, vous devez configurer les paramètres suivants :

    • Atlas URL : saisissez l'emplacement d'Atlas auquel se connecter. C'est généralement http://nom_de_votre_noeud_atlas:port

    • Die on error: cochez cette case pour arrêter l'exécution du Job lorsque des problèmes relatifs à Atlas surviennent, par exemple des problèmes de connexion à Atlas.

      Sinon, laissez cette case décochée pour que votre Job continue à s'exécuter.

Les informations d'authentification utilisées par le Job sont également utilisées pour accéder à Atlas.

La connexion à Atlas a été configurée. Lorsque vous exécutez ce Job, le lignage est automatiquement généré dans Atlas.

Notez que vous devez configurer les autres paramètres dans l'onglet Spark configuration afin d'exécuter le Job. Pour plus d'informations, consultez l'exemple pour un Job Spark Batch dans le Guide de prise en main du Studio, ou tout autre scénario utilisant des Jobs Spark Batch dans le Guide de référence des Composants Talend.

Lorsque l'exécution du Job est terminée, effectuez une recherche, dans Atlas, sur les informations de lignage écrites par ce Job et lisez ces informations.

Lire le lignage

Dans Atlas, le lignage écrit par un Job consiste en deux types d'entités :

  • le Job même

  • les composants du Job utilisant des schémas de données, comme le tRowGenerator ou le tSortRow. Les composants de connexion ou de configuration, comme le tHDFSConfiguration, ne sont pas pris en compte car ils n'utilisent pas de schéma.

Le Job d'exemple génère dix entités : une pour le Job et neuf pour les composants. Il ajoute automatiquement trois libellés différents à ces entités :

  • Talend pour toutes les entités générées par le Job,

  • TalendComponent pour toutes les entités des composants.,

  • TalendJob pour toutes les entités de Jobs.

Vous pouvez cliquer directement sur l'un de ces libellés dans Atlas pour afficher les entités correspondantes. Par exemple, les entités suivantes sont affichées lorsque vous cliquez sur TalendComponent :

Vous pouvez cliquer sur l'une des entités pour afficher les informations de lignage contenues par le composant correspondant. L'image suivante affiche la manière dont le flux de données est géré, après avoir été généré par le composant tRowGenerator :