Configurer la transformation de données - 6.2

Talend Open Studio for Big Data Guide de prise en main

EnrichVersion
6.2
EnrichProdName
Talend Open Studio for Big Data
task
Création et développement
Installation et mise à niveau
EnrichPlatform
Studio Talend

Dans ce scénario, le composant tPigMap est configuré pour effectuer une jointure sur les données des films et réalisateurs.

Une fois les données des films et réalisateurs chargées dans le Job, vous devez configurer le composant tPigMap pour qu'il effectue une jointure et produise la sortie attendue.

  1. Double-cliquez sur le tPigMap pour ouvrir son éditeur Map Editor.

  2. Déposez les colonnes movieID, title, releaseYear et url de gauche aux tables de sortie.

    À gauche, dans le Map Editor, chacune de ces tables représente un flux d'entrée : celle du haut représente le flux principal et celle en-dessous le flux de référence.

    Du côté droit, les deux tables représentent les flux de sortie nommés out1 et reject lorsque vous avez relié le tPigMap au tPigStoreResult dans Ajouter et relier les composants.

  3. Du côté de l'entrée, déposez la colonne directorID de la table du flux principal à la colonne Expr.key de la ligne ID, dans la table du flux de référence.

    Ainsi, la clé de jointure entre le flux principal et le flux de référence est définie.

  4. Déposez la colonne directorID de la table du flux principal à la table reject de sortie et déposez la colonne Name de la table de référence à la table de sortie out1.

    La configuration des deux étapes précédentes décrit comment les colonnes des données d'entrée sont mappées aux colonnes du flux de sortie.

    Dans l'onglet Schema editor, dans la partie inférieure de l'éditeur, vous pouvez voir que les schéma des deux côtés ont été automatiquement renseignés.

  5. Dans la table de sortie out1, cliquez sur le bouton pour afficher le champ d'expression de filtre.

  6. Saisissez

    ''!= row1.directorID

    Cela permet au tPigMap d'écrire en sortie uniquement les enregistrements de films dans lesquels le champ directorID n'est pas vide. Un enregistrement ayant un champ directorID vide ne sera pas écrit en sortie.

  7. Dans la table de sortie reject, cliquez sur le bouton pour ouvrir le panneau des paramètres.

  8. Pour l'option Catch Output Reject, sélectionnez true pour écrire en sortie les enregistrements ayant un champ directorID vide dans le flux reject.

  9. Cliquez sur Apply, puis sur OK afin de valider ces modifications et acceptez la propagation proposée par la boîte de dialogue.

La transformation est à présent configurée pour compléter les données des films en ajoutant le nom des réalisateurs et écrire les enregistrements relatifs aux films ne contenant pas de nom de réalisateur dans un flux de données séparé.