tPigFilterRow - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'une des solutions Big Data de Talend.

Propriétés du tPigFilterRow

Famille du composant

Big Data/Hadoop

 

Fonction

Le composant tPigFilterRow filtre ou divise le flux d'entrée d'une séquence Pig selon un ensemble de conditions sur une (des) colonne(s) donnée(s).

Objectif

Dans un processus Pig, ce composant applique des conditions de filtre sur une ou plusieurs colonne(s) spécifiée(s), afin de diviser ou filtrer des données d'une relation.

Basic settings

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, sélectionnez No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Filter configuration

Cliquez sur le bouton Add sous la table Filter configuration pour ajouter une ou plusieurs condition(s) de filtre.

Notez que lorsque la colonne utilisée pour la condition est de type String, le texte saisi dans la colonne Value doit être entouré par des guillemets simples et doubles (par exemple "'California'"). En effet, les guillemets doubles sont requis par le générateur de code de Talend et les guillemets simples sont requis par la grammaire de Pig.

Note

Cette table disparaît si vous cochez la case Use advanced filter.

 

Use advanced filter

Cochez cette case afin de définir les conditions avancées de filtre en saisissant une expression de filtre dans le champ Filter.

 Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les données de log, aussi bien au niveau du Job qu'au niveau de chaque composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est généralement utilisé comme étape intermédiaire dans une séquence Pig.

Prérequis

La distribution Hadoop doit être correctement installée afin de garantir les interactions avec le Studio Talend. La liste suivante présente des informations d'exemple relatives à MapR.

  • Assurez-vous d'avoir installé le client MapR sur la même machine que le Studio Talend et d'avoir ajouté la bibliothèque client de MapR dans la variable PATH de cette machine. D'après la documentation de MapR, la ou les librairies du client MapR correspondant à chaque OS peuvent être trouvées MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\native. Par exemple, pour Windows, la bibliothèque est lib\MapRClient.dll dans le fichier Jar du client MapR. Pour plus d'informations, consultez la page suivante sur le site de MapR : http://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-mapr (en anglais).

    Si vous n'ajoutez pas de librairie, il est possible que vous rencontriez l'erreur suivante : no MapRClient in java.library.path.

  • Configurez l'argument -Djava.library.path, par exemple, dans la zone Job Run VM arguments de la vue Run/Debug de la boîte de dialogue [Preferences]. Cet argument fournit au studio le chemin d'accès à la bibliothèque native du client MapR. Cela permet aux utilisateurs en souscription d'utiliser entièrement l'aperçu des données (Data viewer) afin de visualiser localement dans le studio les données stockées dans MapR. Pour plus d'informations concernant la configuration de cet argument, consultez la section expliquant comment visualiser les données dans le Guide de prise en main de Talend Big Data.

Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Limitation

La connaissance des scripts Pig est nécessaire.

Scénario : Filtrer des lignes de données selon une condition et sauvegarder le résultat dans un fichier local

Ce scénario décrit un Job à quatre composants filtrant une liste de clients afin de trouver les clients d'un pays spécifique et sauvegardant la liste qui en résulte dans un fichier local. Avant de filtrer les données d'entrée, les entrées en doublon sont supprimées de la liste.

Le fichier d'entrée contient trois colonnes : Name, Country et Age et contient des doublons, comme montré ci-dessous :

Mario;PuertoRico;49
Mike;USA;22
Ricky;PuertoRico;37
Silvia;Spain;20
Billy;Canada;21
Ricky;PuertoRico;37
Romeo;UK;19
Natasha;Russia;25
Juan;Cuba;23
Bob;Jamaica;55
Mario;PuertoRico;49

Déposer et relier les composants

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tPigLoad, un tPigDistinct, un tPigFilterRow et un tPigStoreResult.

  2. Cliquez-droit sur le tPigLoad, sélectionnez Row > Pig Combine dans le menu contextuel et cliquez sur le tPigDistinct pour relier ces deux composants.

  3. Répétez cette opération pour relier le tPigDistinct au tPigFilterRow et le tPigFilterRow au tPigStoreResult à l'aide de liens Row > Pig Combine pour former une chaîne Pig.

Configurer les composants

Charger les données d'entrée et supprimer les doublons

  1. Double-cliquez sur le tPigload afin d'ouvrir sa vue Basic settings.

  2. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la boîte de dialogue [Schema].

  3. Cliquez sur le bouton [+] pour ajouter trois colonnes, selon la structure du fichier d'entrée : Name (de type String), Country (String) et Age (Integer) puis cliquez OK pour sauvegarder la configuration et fermer la boîte de dialogue.

  4. Dans la zone Mode, sélectionnez Local.

  5. Dans le champ Input file URI, renseignez le chemin d'accès complet au fichier d'entrée.

  6. Sélectionnez PigStorage dans la liste Load function et laissez les autres paramètres tels qu'ils sont.

  7. Double-cliquez sur le tPigDistinct pour ouvrir sa vue Basic settings. Cliquez sur le bouton Sync columns pour vous assurer que la structure du schéma d'entrée a bien été propagée depuis le composant précédent.

    Ce composant supprime les doublons du flux d'entrée.

Configurer le filtre

  1. Double-cliquez sur le tPigFilterRow afin d'ouvrir sa vue Basic settings.

  2. Cliquez sur Sync columns pour récupérer la structure du schéma du composant précédent.

  3. Cochez la case Use advanced filter et saisissez, dans le champ Filter, l'expression :

    "Country matches 'PuertoRico'"
    

    Cette expression de filtre sélectionne les ligne de données contenant "PuertoRico" dans la colonne Country.

Configurer le fichier de sortie

  1. Double-cliquez sur le composant tPigStoreResult pour ouvrir sa vue Basic settings.

  2. Cliquez sur Sync columns pour récupérer la structure du schéma du composant précédent.

  3. Dans le champ Result file, renseignez le chemin d'accès au fichier de résultat.

  4. Si le fichier cible existe déjà, cochez la case Remove result directory if exists.

  5. Sélectionnez PigStorage dans la liste Store function et laissez les autres paramètres tels qu'il sont.

Sauvegarder et exécuter le Job

  1. Sauvegardez votre Job en appuyant sur les touches Ctrl+S.

  2. Appuyez sur F6 ou cliquez sur le bouton Run de la vue Run pour exécuter le Job.

Le fichier de résultat contient les informations des clients du pays spécifié.