Effectuer une jointure dans un processus Pig sur des données concernant les conditions de circulation - 7.1

Pig

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Gouvernance de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Qualité et préparation de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
EnrichPlatform
Studio Talend

Ce scénario s'applique uniquement aux solutions Talend avec Big Data.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Le Job de ce scénario utilise deux composants tPigLoad pour lire des données concernant les conditions de circulation et les événements associés sur les routes données depuis une distribution Hadoop, effectuer une jointure et filtrer les données à l'aide du tPigMap, puis d'écrire les résultats dans cette distribution Hadoop à l'aide de deux tPigStoreResult.

La distribution Hadoop à utiliser conserve les données concernant les conditions de circulations (normale ou embouteillage) ainsi que les données concernant les événements liés, tels que des travaux, la pluie ou aucun événement. Dans cet exemple, les données à utiliser se présentent comme suit :

  1. Les données concernant les conditions de circulation sont stockées dans le répertoire /user/ychen/tpigmap/date&traffic.
    2013-01-11 00:27:53;Bayshore Freeway;jam
    2013-02-28 07:01:18;Carpinteria Avenue;jam
    2013-01-26 11:27:59;Bayshore Freeway;normal
    2013-03-07 20:48:51;South Highway;jam
    2013-02-07 07:40:10;Lindbergh Blvd;normal
    2013-01-22 17:13:55;Pacific Hwy S;normal
    2013-03-17 23:12:26;Carpinteria Avenue;normal
    2013-01-15 08:06:53;San Diego Freeway;jam
    2013-03-19 15:18:28;Monroe Street;jam
    2013-01-20 05:53:12;Newbury Road;normal
  2. Les données relatives aux événements sont stockées dans le répertoire /user/ychen/tpigmap/date&event.
    2013-01-11 00:27:53;Bayshore Freeway;road work
    2013-02-28 07:01:18;Carpinteria Avenue;rain
    2013-01-26 11:27:59;Bayshore Freeway;road work
    2013-03-07 20:48:51;South Highway;no event
    2013-02-07 07:40:10;Lindbergh Blvd;second-hand market
    2013-01-22 17:13:55;Pacific Hwy S;no event
    2013-03-17 23:12:26;Carpinteria Avenue;no event
    2013-01-15 08:06:53;San Diego Freeway;second-hand market
    2013-03-19 15:18:28;Monroe Street;road work
    2013-01-20 05:53:12;Newbury Road;no event

Pour chaque heure affichée dans les données, une ligne concernant les conditions de trafic et une ligne concernant les événements sont enregistrées. Vous devez effectuer une jointure sur les données d'une table afin de détecter facilement l'impact des événements sur le trafic routier.

Remarque :

Les données utilisées dans cet exemple sont de taille limitée.

Pour reproduire le scénario, assurez-vous que le Studio à utiliser possède les droits de lecture écriture dans la distribution Hadoop puis procédez comme suit :