Configurer le lignage de données avec Atlas - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-03-06
Disponible dans...

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Le support d'Apache Atlas a été ajouté aux Jobs Spark de Talend.

Si vous utilisez Hortonworks Data Platform V2.4 ou supérieure pour exécuter vos Jobs et qu'Apache Atlas a été installé dans votre cluster Hortonworks, vous pouvez utiliser Atlas afin de visualiser le lignage d'un flux de données pour découvrir comment ces données ont été générées par un Job Spark, notamment dans les composants utilisés dans ce Job et voir les modifications des schémas entre les composants. Si vous utilisez CDP Private Cloud Base ou le Cloud Public CDP pour exécuter vos Jobs et qu'Apache Atlas a été installé dans votre cluster, vous pouvez à présent utiliser Atlas.

Si vous utilisez une distribution CDP dynamique, la case Use Atlas (Utiliser Atlas) remplace la case Use Cloudera Navigator (Utiliser Cloudera Navigator) lorsque vous avez installé la version mensuelle 8.0.1-R2023-06 du Studio Talend ou une plus récente fournie par Talend.

Selon la version d'Hortonworks Data Platform que vous utilisez, le Studio Talend supporte la version d'Atlas suivante :
  • Hortonworks Data Platform V2.4, le Studio Talend supporte uniquement Atlas 0.5.
  • Hortonworks Data Platform V2.5, le Studio Talend supporte uniquement Atlas 0.7.
  • Hortonworks Data Platform V3.14, le Studio Talend supporte uniquement Atlas 1.1.

Par exemple, si vous avez créé le Job Spark Batch suivant et que vous souhaitez générer les informations de lignage le concernant dans Atlas :

Job Spark Batch ouvert.

Dans ce Job, le tRowGenerator est utilisé pour générer les données d'entrée, le tMap et le tSortRow sont utilisés pour traiter les données et les autres composants pour écrire les données en sortie dans différents formats.

Procédure

  1. Cliquez sur l'onglet Run pour ouvrir la vue correspondante puis sur l'onglet Spark Configuration.
  2. Dans la liste Distribution et dans la liste Version, sélectionnez votre distribution Hortonworks. La case Use Atlas s'affiche.

    Lorsque cette option est activée, vous devez configurer les paramètres suivants :

    • Atlas URL : saisissez l'emplacement d'Atlas auquel se connecter. C'est généralement http://nom_de_votre_noeud_atlas:port

    • Dans les champs Username et Password, saisissez respectivement les informations d'authentification pour accéder à Atlas.

    • Set Atlas configuration folder : si votre cluster Atlas contient des propriétés personnalisées, comme le SSL ou le délai avant suspension de la lecture, cochez cette case et, dans le champ qui s'affiche, saisissez un chemin vers un répertoire de votre machine locale, puis placez le fichier atlas-application.properties de votre Atlas dans ce répertoire. Ainsi, votre Job peut utiliser ces propriétés personnalisées.

      Vous devez demander à l'administrateur de votre cluster ces fichiers de configuration. Pour plus d'informations concernant ce fichier, consultez la section Client Configs dans la page Atlas configuration (en anglais).

    • Die on error : cochez cette case pour arrêter l'exécution du Job lorsque des problèmes relatifs à Atlas surviennent, par exemple des problèmes de connexion à Atlas. Sinon, laissez cette case décochée pour que votre Job continue à s'exécuter.

Résultats

La connexion à Atlas a été configurée. Lorsque vous exécutez ce Job, le lignage est automatiquement généré dans Atlas.

Notez que vous devez configurer les autres paramètres dans l'onglet Spark configuration pour exécuter le Job avec succès. Pour plus d'informations, consultez Créer un Job Spark Batch.

Lorsque l'exécution du Job est terminée, effectuez une seconde recherche dans Atlas pour trouver les informations de lignage écrites par ce Job et pour y lire le lignage.