Centraliser des métadonnées HDFS - 6.1

Talend Open Studio for Big Data Guide utilisateur

EnrichVersion
6.1
EnrichProdName
Talend Open Studio for Big Data
task
Création et développement
EnrichPlatform
Studio Talend

Si vous utilisez souvent un schéma de fichier provenant de HDFS, le système de fichiers distribué Hadoop, vous pouvez centraliser les informations de connexion à HDFS ainsi que les détails du schéma dans le dossier Metadata dans la vue Repository.

Prérequis :

  • Lancez la distribution Hadoop que vous souhaitez utiliser et assurez-vous que vous disposez des permissions d'accès nécessaires pour cette distribution et son système de fichiers HDFS.

  • Créez la connexion vers cette distribution Hadoop depuis le nœud Hadoop cluster. Pour plus d'informations, consultez Centraliser une connexion Hadoop.

Créer une connexion à HDFS

  1. Développez le nœud Hadoop cluster sous le nœud Metadata dans la vue Repository puis cliquez-droit sur la connexion Hadoop utilisée et sélectionnez Create HDFS dans le menu contextuel.

  2. Dans l'assistant de connexion qui s'ouvre, renseignez les propriétés génériques de la connexion que vous devez créer, notamment le nom (champ Name), l'objectif (champ Purpose) et la Description. Le champ Status est un champ que vous pouvez personnaliser dans la fenêtre [File] > [Edit project properties].

  3. Cliquez sur Next une fois terminé. L'étape suivante vous permet de renseigner les données de connexion à HDFS. Le champ User name est automatiquement renseigné avec une valeur héritée de la connexion Hadoop que vous avez sélectionnée dans les étapes précédentes.

    Les champs Row separator et Field separator utilisent les valeurs par défaut.

    Si la connexion que vous utilisez autorise la sécurité Kerberos, le champ User name est automatiquement désactivé.

  4. Si les données auxquelles accéder dans HDFS comprennent un message d'en-tête que vous souhaitez ignorer, cochez la case Header et saisissez le nombre de lignes d'en-tête à ignorer.

  5. Si vous devez définir des noms de colonnes pour les données auxquelles accéder, cochez la case Set heading row as column names. Cela permet au studio de sélectionner la dernière ligne ignorée et de l'utiliser pour nommer les colonnes dans les données.

    Par exemple, cochez cette case et saisissez 1 dans le champ Header. Lorsque vous récupérez le schéma des données à utiliser, la première ligne est ignorée en tant que corps des données mais est utilisée pour nommer les colonnes des données.

  6. Si vous devez utiliser une configuration HDFS personnalisée pour la distribution d'Hadoop à utiliser, cliquez sur le bouton [...] à côté de Hadoop properties pour ouvrir la table des propriétés correspondantes et ajouter la ou les propriété(s) à personnaliser. Lors de l'exécution, les propriétés personnalisées écrasent celles par défaut utilisées par le studio pour son moteur Hadoop.

    Une table Parent Hadoop properties s'affiche au-dessus de la table des propriétés que vous modifiez. La table mère est en lecture seule et affiche les propriétés Hadoop ayant été définies dans l'assistant de la connexion Hadoop mère, sur laquelle se base la connexion à HDFS.

    Pour plus d'informations concernant les propriétés relatives à HDFS de Hadoop, consultez la documentation de Apache Hadoop à l'adresse suivante : http://hadoop.apache.org/docs/current/ (en anglais) ou la documentation de la distribution Hadoop que vous utilisez. Par exemple, la page suivante liste certaines propriétés HDFS par défaut http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml.

    Pour tirer parti de cette table des propriétés, consultez Configuration des propriétés réutilisables de Hadoop.

  7. Si nécessaire, modifiez les séparateurs par défaut et cliquez sur le bouton Check afin de vérifier votre connexion.

    Un message apparaît pour indiquer si la connexion est établie.

  8. Cliquez sur Finish pour valider les modifications.

    La nouvelle connexion HDFS créée est disponible sous le nœud Hadoop cluster dans la vue Repository.

    Note

    La vue Repository varie en fonction de l'édition du studio que vous utilisez.

    Si vous devez utiliser un contexte environnemental pour définir les paramètres de cette connexion, cliquez sur le bouton Export as context pour ouvrir l'assistant correspondant et choisir parmi les options suivantes :

    • Create a new repository context : créer le contexte environnemental depuis la connexion Hadoop courante, c'est-à-dire que les paramètres à configurer dans l'assistant sont pris comme variables de contexte avec les valeurs données à ces paramètres.

    • Reuse an existing repository context : utiliser les variables d'un contexte environnemental afin de configurer la connexion courante.

    Si vous devez annuler l'implémentation du contexte, cliquez sur Revert context. Les valeurs des variables de contexte utilisées sont directement mises dans l'assistant.

    Pour un exemple étape par étape concernant l'utilisation de la fonctionnalité Export as context, consultez Exporter une métadonnée en tant que contexte et réutiliser ses paramètres pour configurer une connexion.

  9. Cliquez-droit sur la nouvelle connexion et sélectionnez Retrieve schema dans la liste déroulante afin de charger le schéma de fichier pour établir la connexion.

Retrouver un schéma de fichier

  1. Lorsque vous cliquez sur Retrieve Schema, un nouvel assistant s'ouvre, dans lequel vous pouvez filtrer et afficher différents objets (un fichier Avro, par exemple) dans HDFS.

  2. Dans le champ Name filter, vous pouvez saisir le nom du (des) fichier(s) que vous recherchez, afin d'effectuer un filtre.

    Sinon, vous pouvez développer les dossiers listés dans l'assistant, en cochant la case devant leur nom. Sélectionnez le(s) fichier(s) dont vous souhaitez récupérer le(s) schéma(s).

    Chaque fois qu'un schéma est récupéré pour un fichier sélectionné, le statut Creation status du fichier devient Success.

  3. Cliquez sur Next pour ouvrir une nouvelle vue dans l'assistant qui liste le(s) schéma(s) sélectionné(s). Vous pouvez en sélectionner un pour afficher ses informations dans la zone Schema.

  4. Modifiez, si nécessaire, le schéma sélectionné. Vous pouvez modifier son nom ou personnaliser la structure du schéma dans la zone Schema.

    La barre d'outils vous permet d'ajouter, de supprimer ou de déplacer des colonnes dans le schéma.

    Pour écraser les modifications effectuées sur le schéma sélectionné et retrouver le schéma par défaut, cliquez sur Retrieve schema. Notez que cette opération écrase toutes les modifications personnalisées.

  5. Cliquez sur Finish pour finaliser la création du schéma HDFS. Tous les schémas récupérés sont listés sous le nœud correspondant des connexions HDFS dans la vue Repository.

    Si vous devez modifier un schéma, cliquez-droit sur ce schéma, sous le nœud des connexions HDFS dans la vue Repository et, dans le menu contextuel, sélectionnez Edit Schema pour ouvrir à nouveau l'assistant et effectuer les modifications.

    Note

    Si vous modifiez les schémas, assurez-vous que le type de données est bien défini dans le colonne Type.