Interface du tPigMap - 6.5

Talend Big Data Studio Guide utilisateur

EnrichVersion
6.5
EnrichProdName
Talend Big Data
task
Création et développement
EnrichPlatform
Studio Talend

Pig est une plateforme utilisant un langage de script permettant de définir des flux de données. Elle permet de programmer des opérations étape par étape pour transformer des données à l'aide de Pig Latin, nom du langage utilisé par Pig.

Le tPigMap est un composant avancé mappant les flux de données d'entrée et de sortie gérés par un processus Pig (un ensemble de composants Pig). Il requiert un tPigLoad pour lire des données du système source et un tPigStoreResult pour écrire de données dans une source cible. A partir de ce processus basique composé d'un tPigLoad, d'un tPigMap et d'un tPigStoreResult, vous pouvez développer visuellement un processus Pig très complexe en utilisant d'autres composants Pig autour du tPigMap. Comme ces composants génèrent du code Pig, le Job développé est alors optimisé pour un environnement Hadoop.

Vous devez utiliser un éditeur de mapping pour configurer le tPigMap. Ce Map Editor est un outil "tout en un" vous permettant de définir tous les paramètres nécessaires au mapping, aux transformations et au routage vos flux de données via une interface graphique pratique.

Vous pouvez minimiser et restaurer le Map Editor et toutes les tables du Map Editor à l'aide des icônes de la fenêtre.

Le Map Editor se compose de différentes zones :

  • La zone d'entrée (Input), à gauche de l'éditeur. Elle offre une représentation graphique de tous les flux de données (Main et Lookup). Les données sont regroupées dans plusieurs colonnes des schémas Input. Notez que le nom de la table reflète le nom du lien Main ou Lookup dans l'espace de modélisation graphique du Job.

  • La zone de sortie (Output), à droite de l'éditeur. Elle permet de mapper des données et des champs des tables d'entrée vers les lignes de sortie correspondantes.

  • Le panneau de recherche (Search panel), en haut, au centre de l'éditeur. Il vous permet de chercher dans l'éditeur des colonnes ou des expressions contenant le texte saisi dans le champ Find.

  • Le panneau Define functions, situé sous le panneau de recherche, vous permet de définir les fonctions personnalisées Pig (User-Defined Functions, UDF) à charger par le(s) composant(s) d'entrée et à appliquer aux données de sortie spécifiques. Pour plus d'informations, consultez Définir une fonction personnalisée Pig à l'aide du panneau UDF.

  • Les deux panneaux du bas sont les descriptions des schémas d'entrée et de sortie. L'onglet Schema editor offre une vue du schéma, comprenant les colonnes des tables d'entrée et de sortie dans leur panneau respectif.

  • L'onglet Expression editor est l'outil d'édition pour toutes les clés d'expression des données d'entrée/de sortie ou les conditions de filtre.

Le nom des tables d'entrée/de sortie dans le Map Editor reflète le nom des flux entrant(s) et sortant(s) (liens Row).

Cet éditeur Map Editor est un éditeur Talend de mapping typique, comme celui du tMap. Afin de comprendre complètement le fonctionnement d'un composant de mapping basique, il est recommandé de lire le chapitre de référence décrivant comment le studio Talend mappe les flux de données, dans Mapping de flux de données.

Talend fournit également une version MapReduce et Spark du tMap afin de mapper des flux Big Data au sein de Jobs Talend MapReduce Spark. Ces versions du tMap ont pratiquement la même interface que la version standard du tMap.