Propriétés du tHMapFile pour Apache Spark Batch - 7.0

Data mapping

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Processing (Intégration) > Mapping de données
Gouvernance de données > Systèmes tiers > Composants Processing (Intégration) > Mapping de données
Qualité et préparation de données > Systèmes tiers > Composants Processing (Intégration) > Mapping de données
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tHMapFile s'exécutant dans le framework de Jobs Spark Batch.

Le composant tHMapFile Spark Batch appartient à la famille Processing.

Ce composant est disponible dans les produits Talend Platform avec Big Data et dans Talend Data Fabric.

Basic settings

Storage

Pour vous connecter à une installation HDFS, cochez la case Define a storage configuration component et sélectionnez le nom du composant à utiliser, parmi ceux disponibles dans la liste déroulante.

Cette option nécessite d'avoir précédemment configuré la connexion à l'installation HDFS à utiliser, comme décrit dans la documentation du composant tHDFSConfiguration.

Si vous laissez la case Define a storage configuration component décochée, vous pouvez convertir les fichiers seulement en local.

Configure Component

Pour configurer le composant, cliquez sur le bouton [...] et, dans la fenêtre [Component Configuration], effectuez les actions suivantes.

  1. Cliquez sur le bouton Select à côté du champ Record Map et, dans la boîte de dialogue [Select a Map] qui s'ouvre, sélectionnez la structure que vous souhaitez utiliser lors de la conversion du fichier, puis cliquez sur OK.

    Cette structure doit avoir été précédemment créée dans Talend Data Mapper .

    Notez que les représentations d'entrée et de sortie sont celles définies dans le mapping ne peuvent être modifiées dans le composant.

  2. Cliquez sur Next.

  3. Précisez au composant où chaque nouvel enregistrement commence. Pour ce faire, vous devez comprendre la structure de vos données.

    La manière dont vous procédez dépend de la représentation d'entrée utilisée. L'une des options suivantes vous est présentée.

    1. Sélectionnez un séparateur d'enregistrements pour vos données. Notez que vous devez spécifier cette valeur sans guillemet.
      • Separator vous permet de spécifier un indicateur de séparateur, comme \n, pour identifier une nouvelle ligne.

        Les indicateurs sont \n pour une ligne de type Unix, \r\n pour Windows et \r pour Mac et \t pour les tabulations.

      • Start/End with vous permet de spécifier les caractères initiaux indiquant un nouvel enregistrement, comme <root, ou les caractères qui indiquent la fin d'un enregistrement. Il peut également s'agir d'une expression régulière.

        Start with supporte également les nouvelles lignes, avec \n pour une ligne de type Unix, \r\n pour Windows et \r pour Mac, ainsi que \t pour les tabulations.

      • Sample File : Pour tester la signature avec un fichier d'exemple, cliquez sur le bouton [...], parcourez votre système jusqu'au fichier que vous souhaitez utiliser en tant qu'exemple, cliquez sur Open, et puis cliquez sur Run pour tester votre exemple.

        Tester la signature vous permet de vérifier que le nombre total d'enregistrements et leurs longueur minimale et maximale correspondent à ce que vous attendez, sur la connaissance de vos données. Cette étape requiert que vous ayez un sous-ensemble local de vos données à utiliser en exemple.

      • Cliquez sur Finish.

    2. Si votre représentation d'entrée est COBOL ou plate avec des propriétés d'encodage positionnel et/ou binaire, définissez la signature pour la structure de l'enregistrement d'entrée :
      • Input Record correspond à l'élément racine de votre enregistrement d'entrée.

      • Minimum Record Size correspond à la taille en octets de l'enregistrement le plus petit. Si vous configurez une valeur trop petite, vous pouvez rencontrer des problèmes de performance, puisque le composant va effectuer plus de vérifications que nécessaire lors de la recherche d'un nouvel enregistrement.

      • Maximum Record Size correspond à la taille en octets de l'enregistrement le plus grand et utilisé pour déterminer combien de mémoire est allouée à la lecture de l'entrée.

      • Sample from Workspace ou Sample from File System : Pour tester la signature avec un fichier d'exemple, cliquez sur le bouton [...], puis parcourez votre système ou votre espace de travail jusqu'au fichier que vous souhaitez utiliser en tant qu'exemple.

        Tester la signature vous permet de vérifier que le nombre total d'enregistrements et leurs longueur minimale et maximale correspondent à ce que vous attendez, sur la connaissance de vos données. Cette étape requiert que vous ayez un sous-ensemble local de vos données à utiliser en exemple.

      • Footer Size correspond à la taille en octets du pied de page, s'il y en a un. Lors de l'exécution, le pied de page sera ignoré, au lieu d'être inclus par erreur dans le dernier enregistrement. Laissez ce champ vide s'il n'y a pas de pied de page.

      • Cliquez sur le bouton Next pour ouvrir la fenêtre [Signature Parameters], sélectionnez les champs définissant la signature de la structure de votre enregistrement d'entrée (pour identifier où commence un nouvel enregistrement), mettez à jour les colonnes Operation et Value selon vos besoins, puis cliquez sur Next.

      • Dans la fenêtre [Signature Test] qui s'ouvre, vérifiez que vos enregistrements sont correctement délimités en navigant parmi eux, à l'aide des boutons Back et Next et en effectuant une vérification visuelle, puis cliquez sur Finish.

Input

Cliquez sur le bouton [...] pour définir le chemin d'accès à l'emplacement où est stocké le fichier d'entrée.

Output

Cliquez sur le bouton [...] afin de définir le chemin d'accès à l'emplacement où est stocké le fichier de sortie.

Action

Dans la liste déroulante, sélectionnez :
  • Create si vous souhaitez que le processus de mapping crée un nouveau fichier.

  • Overwrite si vous souhaitez que le processus de mapping écrase un fichier existant.

Open Map Editor

Cliquez sur le bouton [...] pour ouvrir le mapping afin de le modifier dans l'éditeur Map Editor de Talend Data Mapper .

Pour plus d'informations, consultez le Guide Talend Data Mapper User Guide (en anglais).

Advanced settings

Arrêter en cas d''erreur

Cochez cette case pour arrêter l'exécution du Job lorsqu'une erreur survient.

Décochez la case pour ignorer les lignes en erreur et terminer le processus.

Utilisation

Règle d'utilisation

Ce composant est utilisé avec le tHDFSConfiguration, définissant la connexion au stockage HDFS, ou en tant que composant standalone pour mapper des fichiers locaux uniquement.