tPigSort - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'une des solutions Big Data de Talend.

Propriétés du tPigSort

Famille du composant

Big Data/Hadoop

 

Fonction

Ce composant vous permet de trier une relation selon une ou plusieurs clé(s) de tri définie(s).

Objectif

Le composant tPigSort est utilisé pour trier une relation à partir d'une ou plusieurs clé(s) dé tri définie(s).

Basic settings

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, sélectionnez No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

 

Built-in : Le schéma sera créé et conservé pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et Jobs. Voir également le Guide utilisateur du Studio Talend.

 

Sort key

Cliquez sur le bouton Add sous la table Sort key pour ajouter une ou plusieurs ligne(s) afin de spécifier une colonne et trier selon chaque clé de tri.

Advanced settings

Increase parallelism

Cochez cette case pour définir le nombre de tâches "reduce" pour des Jobs MapReduce.

 

tStatCatcher Statistics

Cochez cette case pour collecter les données de log, aussi bien au niveau du Job qu'au niveau de chaque composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est généralement utilisé comme étape intermédiaire. Il nécessite donc un composant d'entrée et un composant de sortie.

Prérequis

La distribution Hadoop doit être correctement installée afin de garantir les interactions avec le Studio Talend. La liste suivante présente des informations d'exemple relatives à MapR.

  • Assurez-vous d'avoir installé le client MapR sur la même machine que le Studio Talend et d'avoir ajouté la bibliothèque client de MapR dans la variable PATH de cette machine. D'après la documentation de MapR, la ou les librairies du client MapR correspondant à chaque OS peuvent être trouvées MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\native. Par exemple, pour Windows, la bibliothèque est lib\MapRClient.dll dans le fichier Jar du client MapR. Pour plus d'informations, consultez la page suivante sur le site de MapR : http://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-mapr (en anglais).

    Si vous n'ajoutez pas de librairie, il est possible que vous rencontriez l'erreur suivante : no MapRClient in java.library.path.

  • Configurez l'argument -Djava.library.path, par exemple, dans la zone Job Run VM arguments de la vue Run/Debug de la boîte de dialogue [Preferences]. Cet argument fournit au studio le chemin d'accès à la bibliothèque native du client MapR. Cela permet aux utilisateurs en souscription d'utiliser entièrement l'aperçu des données (Data viewer) afin de visualiser localement dans le studio les données stockées dans MapR. Pour plus d'informations concernant la configuration de cet argument, consultez la section expliquant comment visualiser les données dans le Guide de prise en main de Talend Big Data.

Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Limitation

La connaissance des scripts Pig est nécessaire.

Scénario : Trier des données en ordre ascendant

Ce scénario décrit un Job à trois composants triant des lignes de données à partir d'une ou plusieurs condition(s) de tri et stockant le résultat dans un fichier local.

Construire le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : tPigSort, tPigLoad, tPigStoreResult.

  2. Connectez le tPigLoad au tPigFilterRow à l'aide d'un lien Row >  Pig Combine.

  3. Connectez le tPigFilterRow au tPigStoreResult à l'aide d'un lien Row > Pig Combine.

Charger les données

  1. Double-cliquez sur le composant tPigLoad pour ouvrir sa vue Basic settings.

  2. Cliquez sur le bouton [...] à côté du champ Edit schema afin d'ajouter des colonnes au schéma du composant tPigLoad.

  3. Cliquez sur le bouton Add afin d'ajouter les colonnes Name, Country et Age et cliquez sur OK pour sauvegarder la configuration.

  4. Sélectionnez Local dans la liste Mode.

  5. Renseignez le champ Input filename avec le chemin d'accès au fichier d'entrée.

    Dans ce scénario, le fichier d'entrée est CustomerList. Il contient les lignes de noms, les noms des pays et les âges des clients.

  6. Sélectionnez PigStorage dans la liste Load function.

  7. Laissez les autres paramètres tels qu'ils sont.

Paramétrer la condition de tri

  1. Double-cliquez sur le tPigSort afin d'ouvrir sa vue Basic settings.

  2. Cliquez sur Sync columns pour récupérer la structure du schéma du composant précédent.

  3. Cliquez sur le bouton Add sous la table Sort key afin d'ajouter une nouvelle clé de tri. Sélectionnez Age dans la liste Column et sélectionnez ASC dans la liste Order.

    Cette clé de tri va trier les données dans la liste CustomerList en ordre ascendant à partir de l'Age.

Sauvegarder les données dans un fichier local

  1. Double-cliquez sur le composant tPigStoreResult afin d'ouvrir sa vue Basic settings.

  2. Cliquez sur Sync columns afin de récupérer la structure du schéma du composant précédent.

  3. Cochez la case Remove result directory if exists.

  4. Renseignez le champ Result file avec le chemin d'accès au fichier de résultat.

    Dans ce scénario, le résultat du filtre est sauvegardé dans le fichier Lucky_Customer.

  5. Sélectionnez PigStorage dans la liste Store function.

  6. Laissez les autres paramètres tels qu'ils sont.

Exécuter le Job

Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

Le fichier Lucky_Customer est généré et contient les données en ordre ascendant selon la colonne Age.