Procédure
-
Dans la perspective Integration du Studio, créez un Job Spark Batch vide depuis le nœud Job Designs de la vue Repository.
Pour plus d'informations concernant comment créer une Job Spark Batch, consultez Guide de prise en main de Talend Open Studio for Big Data.
-
Dans l'espace de modélisation graphique, saisissez le nom du composant à utiliser et sélectionnez ce composant dans la liste qui s'affiche. Dans ce scénario, les composants sont : un tHDFSConfiguration, deux tFixedFlowInput (nommez-en un customer_base et l'autre web_data), un tSqlRow, un tCacheOut, un tCacheIn, un tMap, un tExtractDelimitedFields, un tAggregateRow, un tTop et un tLogRow.
Les composants tFixedFlowInput sont utilisés pour charger les données d'exemple dans le flux de données. Dans un cas réel d'utilisation, vous pouvez utiliser d'autres composants, comme le tMysqlInput ou le tMap au lieu du tFixedFlowInput, afin de créer un processus sophistiqué afin de préparer vos données à un traitement.
- Reliez le customer_base (tFixedFlowInput), le tSqlRow et le tCacheOut avec un lien Row > Main. Dans ce sous-Job, les enregistrements concernant les clients dont le niveau de support est Silver sont sélectionnés et stockés dans le cache.
- Reliez le web_data (tFixedFlowInput) au tMap à l'aide d'un lien Row > Main. Ce flux est le flux d'entrée principal vers le composant tMap.
- Répétez l'opération afin de relier le tCacheIn au tMap. Ce flux est le flux de référence (lookup) vers le tMap.
- Reliez le tMap au tExtractDelimitedFields à l'aide d'un lien Row > Main et donnez un nom à cette connexion dans la boîte de dialogue qui s'ouvre. Par exemple, nommez-la output.
- Reliez le tExtractDelimitedFields, le tAggregateRow, le tTop et le tLogRow à l'aide de liens Row > Main.
- Reliez le composant customer_base au web_data à l'aide d'un lien Trigger > OnSubjobOk.
- Laissez le composant tHDFSConfiguration seul, sans connexion.