Ces propriétés sont utilisées pour configurer le tHMapInput s'exécutant dans le framework de Jobs Spark Batch.
Le composant tHMapInput Spark Batch appartient à la famille Processing.
Ce composant est disponible dans les produits Talend Platform avec Big Data et dans Talend Data Fabric.
Basic settings
Storage |
Pour vous connecter à une installation HDFS, cochez la case Define a storage configuration component et sélectionnez le nom du composant à utiliser, parmi ceux disponibles dans la liste déroulante. Cette option nécessite d'avoir précédemment configuré la connexion à l'installation HDFS à utiliser, comme décrit dans la documentation du composant tHDFSConfiguration. Si vous laissez la case Define a storage configuration component décochée, vous pouvez convertir les fichiers seulement en local. |
Configure Component |
Avant de configurer ce composant, vous devez déjà avoir ajouté un composant en aval et l'avoir lié au tHMapInput, ainsi que d'avoir récupéré le schéma du composant en aval. Pour configurer le composant, cliquez sur le bouton [...] et, dans la fenêtre Component Configuration, effectuez les actions suivantes.
|
Input |
Cliquez sur le bouton [...] pour définir le chemin d'accès à l'emplacement où est stocké le fichier d'entrée. |
Open Map Editor |
Cliquez sur le bouton [...] pour ouvrir le mapping et le modifier dans l'éditeur Map Editor de Talend Data Mapper . Pour plus d'informations, consultez le Guide utilisateur de Talend Data Mapper . |
Advanced settings
Die on error |
Cette case est cochée par défaut. Décochez la case pour ignorer les lignes en erreur et terminer le traitement des lignes sans erreur. Si cette case est décochée, vous pouvez récupérer les enregistrements rejetés dans un fichier. Un de ces mécanismes déclenche cette fonctionnalité : (1) une variable de contexte (talend_transform_reject_file_path) et (2) une variable système configurée dans les paramètres avancés du Job (spark.hadoop.talend.transform.reject.file.path). Lorsque vous configurez le chemin d'accès au fichier dans Hadoop Distributed File System (HDFS), aucune configuration supplémentaire n'est nécessaire. Lorsque vous configurez le fichier sur Amazon S3 ou dans un autre système de fichiers compatible Hadoop, ajoutez le paramètre avancé de configuration Spark associé. En cas d'erreur lors de l'exécution, le tHMapFile vérifie que l'un des mécanismes existe et, si c'est le cas, il écrit à la suite du fichier spécifié les enregistrements rejetés. Le contenu du fichier de rejets comprend la concaténation des enregistrements rejetés sans métadonnée supplémentaire. Si le système de fichiers que vous utilisez ne supporte pas l'écriture à la suite d'un fichier, un fichier séparé est créé pour chaque rejet. Le fichier utilise le chemin d'accès fourni comme préfixe et ajoute en suffixe l'offset du fichier d'entrée et la taille de l'enregistrement rejeté. Remarque : Les erreurs qui surviennent durant les tentatives de stockage des rejets sont enregistrées et le traitement continue.
|
Utilisation
Règle d'utilisation |
Ce composant est utilisé avec le tHDFSConfiguration, définissant la connexion au stockage HDFS. Ce composant est un composant d'entrée et nécessite un flux de sortie. |