Accéder au contenu principal Passer au contenu complémentaire

Créer le Job Big Data Batch

Créez un Job avec un tHMapInput et deux composants de sortie afin de convertir un fichier JSON en deux fichiers CSV.

Pourquoi et quand exécuter cette tâche

Cet exemple utilise un fichier local en entrée, mais vous pouvez également créer une connexion à HDFS. Pour plus d'informations, consultez Composants HDFS (uniquement en anglais).

Procédure

  1. Dans la perspective Integration, cliquez-droit sur le nœud Job Designs et sélectionnez Create Big Data Batch Job (Créer un Job Big Data Batch).
  2. Saisissez un nom (Name), un objectif (Purpose) et une Description pour votre Job, puis cliquez sur Finish (Terminer).
  3. Ajoutez les composants suivants dans l'espace de modélisation graphique :
    • un tHMapInput,
    • un tFileOutputDelimited.
  4. Cliquez sur le tHMapInput et allez dans l'onglet Component (Composant) pour configurer le composant :
    1. Si vous utilisez des fichiers locaux, décochez la case Define a storage configuration component (Définir un composant de configuration de stockage).
    2. Dans le champ Input, saisissez le chemin d'accès à votre fichier d'entrée.

      Exemple

      "c:/users/jsmith/documents/courses.json"
  5. Double-cliquez sur le composant tFileOutputDelimited pour le configurer :
    1. Décochez la case Define a storage configuration component (Définir un composant de configuration de stockage).
    2. Cliquez sur le bouton ... près de Edit schema (Modifier le schéma) et créez deux colonnes nommées id et title.
    3. Saisissez le chemin d'accès au dossier dans lequel créer les fichiers de sortie.

      Exemple

      "c:/users/jsmith/documents/modules"
  6. Cliquez-droit sur le composant tFileOutputDelimited et sélectionnez Copy et collez-le dans votre espace de modélisation graphique pour créer un autre composant avec la même configuration.
  7. Double-cliquez sur le tFileOutputDelimited_2 et modifiez la valeur du champ Folder.

    Exemple

    "c:/users/jsmith/documents/sections"
  8. Reliez le tHMapInput aux deux composants tFIleOutputDelimited à l'aide de liens Row > Main nommés modules et sections, puis cliquez sur Yes lorsqu'il vous est proposé de récupérer le schéma du composant cible.
    Votre Job doit ressembler à ceci :
  9. Double-cliquez sur le tHMapInput et suivez l'assistant pour générer la map.
    1. Sélectionnez la structure créée dans Créer la structure d'entrée pour votre Job Big Data Batch (uniquement en anglais) et cliquez sur Next (Suivant).
    2. Sélectionnez Start/End with (Démarrer/terminer par).
      Dans cet exemple, l'expression régulière suivante est automatiquement ajoutée au champ Start with : \{\s*(\'course\'|\"course\").
    3. Facultatif : Cliquez sur le bouton ... pour ajouter votre fichier échantillon d'entrée et cliquez sur Run pour voir le nombre d'enregistrements trouvés.
      Dans ce cas, vous devez avoir trois enregistrements.

      Exemple

    4. Cliquez sur Finish.

Résultats

La map est générée. Elle utilise la structure d'entrée précédemment créée et génère une structure de sortie à partir du schéma défini dans les composants tFileOutputDelimited. Vous pouvez à présent mapper les éléments.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !