tHMapInput - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio lorsque vous avez souscrit à l'une des solutions Talend Platform avec Big Data.

Fonction

Le composant tHMapInput transforme les données d'une seule source de données, dans un environnement Spark, pour une utilisation par un composant en aval.

Objectif

Le tHMapInput exécute un mapping Talend Data Mapper dans lequel les structures d'entrée et de sortie peuvent varier, en tant qu'exécution Spark batch et envoie les données afin de les utiliser par un composant en aval.

Propriétés du tHMapInput dans des Jobs Spark Batch

Famille du composant

Processing

 

Basic settings

Storage

Pour vous connecter à une installation HDFS, cochez la case Define a storage configuration component et sélectionnez le nom du composant à utiliser, parmi ceux disponibles dans la liste déroulante.

Cette option nécessite d'avoir précédemment configuré la connexion à l'installation HDFS à utiliser, comme décrit dans la documentation du composant tHDFSConfiguration.

Si vous laissez la case Define a storage configuration component décochée, vous pouvez convertir les fichiers seulement en local.

 

Configure Component

Avant de configurer ce composant, vous devez déjà avoir ajouté un composant en aval et l'avoir lié au tHMapInput, ainsi que d'avoir récupéré le schéma du composant en aval.

Pour configurer le composant, cliquez sur le bouton [...] et, dans la fenêtre [Component Configuration], effectuez les actions suivantes.

  1. Cliquez sur le bouton Select à côté du champ Record structure et, dans la boîte de dialogue [Select a Structure] qui s'ouvre, sélectionnez le mapping à utiliser, puis cliquez sur OK.

    Cette structure doit avoir été précédemment créée dans Talend Data Mapper.

  2. Sélectionnez dans la liste la représentation Input Representation à utiliser.

    Les formats d'entrée supportés dans COBOL, EDI, Flat, IDocs, JSON et XML.

  3. Cliquez sur Next.

  4. Précisez au composant où chaque nouvel enregistrement commence. Pour ce faire, vous devez comprendre la structure de vos données.

    La manière dont vous procédez dépend de la représentation d'entrée utilisée. L'une des options suivantes vous est présentée.

    1. Sélectionnez un délimiteur d'enregistrements pour vos données. Notez que vous devez spécifier cette valeur sans guillemet.

      • Separator vous permet de spécifier un indicateur de séparateur, comme \n, pour identifier une nouvelle ligne.

        Les indicateurs sont \n pour une ligne de type Unix, \r\n pour Windows et \r pour Mac et \t pour les tabulations.

      • Start with vous permet de spécifier les caractères initiaux indiquant un nouvel enregistrement, comme <root.

        Start with supporte également les nouvelles lignes, avec \n pour une ligne de type Unix, \r\n pour Windows et \r pour Mac, ainsi que \t pour les tabulations.

    2. Si votre représentation d'entrée est COBOL, définissez la signature pour la structure de l'enregistrement d'entrée :

      • Min Size correspond à la taille en octets de l'enregistrement le plus petit. Si vous configurez une valeur trop petite, vous pouvez rencontrer des problèmes de performance, puisque le composant va effectuer plus de vérifications que nécessaire lors de la recherche d'un nouvel enregistrement.

      • Max Size correspond à la taille en octets de l'enregistrement le plus grand et utilisé pour déterminer combien de mémoire est allouée à la lecture de l'entrée.

      • Footer Size correspond à la taille en octets du pied de page, s'il y en a un. Lors de l'exécution, le pied de page sera ignoré, au lieu d'être inclus par erreur dans le dernier enregistrement. Laissez ce champ vide s'il n'y a pas de pied de page.

      • Cliquez sur le bouton Configure pour ouvrir la fenêtre [Edit Signature], sélectionnez les champs définissant la signature de la structure de votre enregistrement d'entrée (pour identifier où commence un nouvel enregistrement), mettez à jour les colonnes Operation et Value selon vos besoins, puis cliquez sur OK pour retourner à la fenêtre [Component Configuration].

  5. Pour tester la signature avec un fichier d'exemple, cliquez sur le bouton [...], parcourez votre système jusqu'au fichier que vous souhaitez utiliser en tant qu'exemple, puis cliquez sur Open.

    Tester la signature vous permet de vérifier que le nombre total d'enregistrements et leurs longueur minimale et maximale correspondent à ce que vous attendez, sur la connaissance de vos données. Cette étape requiert que vous ayez un sous-ensemble local de vos données à utiliser en exemple.

  6. Cliquez sur Run pour tester votre exemple.

  7. Cliquez sur Finish.

  8. Mappez les éléments de la structure d'entrée à la structure de sortie dans le nouveau mapping qui s'ouvre, puis appuyez que les touches Ctrl+S afin de sauvegarder le mapping.

    Pour plus d'informations concernant la création des mappings, consultez le Guide Talend Data Mapper User Guide (en anglais).

 

Input

Cliquez sur le bouton [...] pour définir le chemin d'accès à l'emplacement où est stocké le fichier d'entrée.

 

Open Map Editor

Cliquez sur le bouton [...] pour ouvrir le mapping et le modifier dans l'éditeur Map Editor de Talend Data Mapper.

Pour plus d'informations, consultez le Guide Talend Data Mapper User Guide (en anglais).

Utilisation

Ce composant est utilisé avec le tHDFSConfiguration, définissant la connexion au stockage HDFS.

Ce composant est un composant d'entrée et nécessite un flux de sortie.

Scénario associé

Pour un scénario associé, consultez Scénario : Transformer des données dans un environnement Spark.