Composants HDFS et Azure Data Lake Store (ADLS)

EnrichVersion
6.5
EnrichProdName
Talend Open Studio for Big Data
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
Gouvernance de données > Systèmes tiers > Composants File (Intégration) > Composants HDFS
Qualité et préparation de données > Systèmes tiers > Composants File (Intégration) > Composants HDFS
Création et développement > Systèmes tiers > Composants File (Intégration) > Composants HDFS
Création et développement > Systèmes tiers > Stockages Cloud > Composants Azure > Composants Azure Data Lake Store
Qualité et préparation de données > Systèmes tiers > Stockages Cloud > Composants Azure > Composants Azure Data Lake Store
Gouvernance de données > Systèmes tiers > Stockages Cloud > Composants Azure > Composants Azure Data Lake Store
EnrichPlatform
Studio Talend

Utiliser les composants HDFS pour travailler avec Azure Data Lake Store (ADLS)

Ce scénario décrit comment utiliser les composants HDFS pour lire des données de et écrire des données dans Azure Data Lake Store.

Ce scénario s'applique uniquement aux solutions Talend avec Big Data.

  • un tFixedFlowInput : il fournit les données d'exemple dans le Job,

  • un tLibraryLoad : il charge les bibliothèques requises dans le Job,

  • un tHDFSOutput : il écrit les données d'exemple dans Azure Data Lake Store,

  • un tHDFSInput : il écrit les données d'exemple depuis Azure Data Lake Store,

  • un tLogRow : il affiche la sortie du Job dans la console de la vue Run du Job.

Configurer votre Azure Data Lake Store

Avant de commencer

Une souscription à Azure est requise.

Procédure

  1. Créez votre compte Azure Data Lake Store. Pour plus d'informations concernant cette procédure, consultez la documentation Azure : Créer un compte Azure Data Lake Store.
  2. Créez une application Azure Active Directory dans votre portail Azure. Pour plus d'informations concernant cette procédure, consultez la section "Créer une application Azure Active Directory" de la documentation Azure : Utiliser le portail pour créer une application Azure Active Directory.
  3. Obtenez l'ID de l'application ID et la clé d'authentification depuis le portail.
    1. Sur la liste des applications enregistrées, cliquez sur l'application créée et enregistrée dans l'étape précédente, pour afficher son panneau d'informations.
    2. Dans la zone Essentials, copiez son ID d'application.
    3. Cliquez sur All settings pour afficher le panneau Settings et cliquez Required permissions dans ce panneau.
    4. Dans le panneau Required permissions, cliquez sur Windows Azure Active Directory pour afficher le panneau Enable Access.
    5. Sélectionnez les droits à accorder à votre application et cliquez sur Save pour fermer le panneau Enable Access. Il est possible que vous deviez obtenir l'accord de l'administrateur de votre portail Azure pour valider les droits.
    6. Toujours dans le panneau Required permissions de votre application, cliquez sur Add dans le panneau Add API access et cliquez sur Select an API.
    7. Cliquez sur Azure Data Lake puis cliquez sur Select pour valider votre sélection et ouvrir automatiquement le panneau Enable Access de cette API.
    8. Sélectionnez les droits à accorder et cliquez sur Select pour fermer le panneau Enable Access.
    9. Dans le panneau Add API access, cliquez sur Done pour retourner au panneau Setting de votre application.
    10. Cliquez sur Keys pour ouvrir le panneau Keys.
    11. Dans la zone Password, saisissez la description de votre clé, définissez sa durée de validité puis cliquez sur Save pour afficher la valeur de votre clé.
    12. Copiez la valeur de la clé et conservez-la à un endroit sûr, car vous ne pourrez pas récupérer la clé une fois le panneau quitté.
  4. Retournez à la liste des services Data Lake Store, sélectionnez le Data Lake Store créé au début de la procédure et cliquez sur Data Explorer.
  5. Dans le panneau qui s'ouvre, cliquez sur Access pour ouvrir le panneau Access.
  6. Cliquez sur Add et, dans le panneau Select User or Group, cherchez votre application, sélectionnez-la puis cliquez sur le bouton Select pour ouvrir le panneau Select Permission.
  7. Sélectionnez les droits à assigner à votre application et cliquez sur OK.
    Dans cet exemple, sélectionnez tous les droits.
  8. Obtenez l'endpoint du token Azure OAUTH 2.0 en procédant comme suit :
    1. Cliquez sur Azure Active Directory et dans le panneau qui s'affiche, cliquez sur App registrations.
    2. Dans le panneau App registrations, cliquez sur Endpoints et, dans le panneau Endpoints, copiez la valeur du champ OAUTH 2.0 TOKEN ENDPOINT.

Créer un Job HDFS dans le Studio

Procédure

  1. Dans la perspective Integration, déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFixedFlowInput, un tHDFSOutput, un tHDFSInput, un tLogRow et trois tLibraryLoad.
  2. Reliez le tFixedFlowInput au tHDFSOutput à l'aide d'un lien Row > Main.
  3. Répétez l'opération pour relier le tHDFSInput au tLogRow.
  4. Double-cliquez sur l'un des trois tLibraryLoad pour ouvrir sa vue Component.
  5. Cliquez sur le bouton [...] pour ouvrir l'assistant Module et sélectionnez la bibliothèque à charger.

    Dans cet exemple, chargez azure-data-lake-store-sdk-2.1.4.jar. C'est l'une des bibliothèques requises par les composants HDFS pour utiliser Azure Data Lake Store. Vous pouvez trouver ce jar dans MVN Repository, à l'adresse Azure Data Lake Store Java Client SDK (en anglais).

  6. Répétez l'opération pour faire en sorte que les deux autres composants tLibraryLoad chragent les deux autres bibliothèques.

    Dans cet exemple, ces bibliothèques sont hadoop-azure-datalake-2.6.0-cdh5.12.1.jar et jackson-core-2.8.4.jar.

Configurer les composants HDFS pour utiliser Azure Data Lake Store

Procédure

  1. Double-cliquez sur le tFixedFlowInput pour ouvrir sa vue Component et fournir des données d'exemple dans le Job.

    Les données d'exemple à utiliser contiennent une seule ligne comprenant deux colonnes : id et name.

  2. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir l'éditeur de schéma.
  3. Cliquez sur le bouton [+] pour ajouter les deux colonnes et renommez-les id et name.
  4. Cliquez sur OK pour fermer l'éditeur de schéma et valider le schéma.
  5. Dans la zone Mode, sélectionnez Use single table.

    Les colonnes id et name s'affichent automatiquement dans la table Value et vous pouvez saisir les valeurs que vous souhaitez, entre guillemets doubles, dans la colonne Value pour les deux valeurs de schéma.

  6. Double-cliquez sur le tHDFSOutput pour ouvrir sa vue Component.
  7. Dans la zone Version, sélectionnez la distribution à utiliser et la version de cette distribution.
  8. Dans le champ NameNode URI, saisissez le service du NameNode de votre application.

    Par exemple, si votre application se nomme my_app, l'URI du NameNode à utiliser est adl://my_app.azuredatalakestore.net.

  9. Dans l'onglet Advanced settings, ajoutez les paramètres suivants dans la table Hadoop properties, entre guillemets doubles :

    dfs.adls.oauth2.access.token.provider.type

    ClientCredential

    fs.adl.impl

    org.apache.hadoop.fs.adl.AdlFileSystem

    fs.AbstractFileSystem.adl.impl

    org.apache.hadoop.fs.adl.Adl

    dfs.adls.oauth2.client.id

    Saisissez l'ID de l'application obtenu lors des étapes précédentes.

    dfs.adls.oauth2.credential

    Saisissez la clé de l'application obtenue dans les étapes précédentes.

    dfs.adls.oauth2.refresh.url

    Saisissez l'endpoint du jeton Azure OAUTH obtenu dans les étapes précédentes.

    dfs.adls.oauth2.access.token.provider

    org.apache.hadoop.fs.adls.oauth2.ConfCredentialBasedAccessTokenProvider

  10. Configurez de la même manière le tHDFSInput.
  11. Appuyez sur F6 pour exécuter le Job.