Propriétés du tFileInputJSON MapReduce (déprécié)

Ces propriétés sont utilisées pour configurer le tFileInputJSON s'exécutant dans le framework de Jobs MapReduce.

Le composant tFileInputJSON MapReduce appartient à la famille MapReduce.

Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.

Le framework MapReduce est déprécié à partir de la version 7.3 de Talend. Utilisez des Jobs Talend pour Apache Spark afin d'accomplir vos tâches d'intégration.

Basic settings

Property type	Peut être Built-In ou Repository.
	Built-In : aucune propriété n'est stockée de manière centrale.
	Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant. Les champs suivants sont alors pré-remplis à l'aide des données collectées. Pour plus d'informations concernant le nœud File Json, consultez la section concernant la configuration d'un schéma de fichier JSON dans le Guide d'utilisation du Studio Talend.
Schema et Edit Schema	Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé `line` lors du nommage des champs. Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles : View schema : sélectionnez cette option afin de voir uniquement le schéma. Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales. Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre Repository Content.
	Built-in : le schéma est créé et conservé localement pour ce composant seulement.
	Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets.
Read by	Sélectionnez un moyen d'extraire les données JSON du fichier. Xpath : extrait les données JSON en se basant sur la requête XPath. JsonPath : extrait les données JSON en se basant sur la requête JSONPath. Il est recommandé de lire les données via JSONPath afin d'obtenir de meilleures performances.
Folder/File	Saisissez le chemin d'accès au fichier ou au dossier de HDFS duquel extraire les données. Si le chemin saisi pointe vers un dossier, tous les fichiers de ce dossier seront lus. Si le fichier à lire est un fichier compressé, saisissez son nom et son extension, puis tFileInputJSON décompresse automatiquement le fichier lors de l'exécution. Les formats de compression, ainsi que les extensions correspondantes, sont : DEFLATE : .deflate gzip : .gz bzip2 : .bz2 LZO : .lzo Assurez-vous que la connexion à la distribution Hadoop utilisée est correctement configurée dans l'onglet Hadoop configuration de la vue Run.
Die on error	Cochez cette case pour arrêter l'exécution du Job lorsqu'une erreur survient. Décochez la case pour ignorer les lignes en erreur et terminer le traitement des lignes sans erreur. Lorsque les erreurs sont ignorées, vous pouvez récupérer les lignes en erreur en utilisant la connexion Row > Reject.
Loop Jsonpath query	Saisissez le JSONPath ou le XPath du nœud sur lequel se base la boucle. Si vous avez sélectionné Xpath dans la liste déroulante Read by, le champ Loop Xpath query s'affiche.
Mapping	Renseignez cette table pour mapper les colonnes définies dans le schéma aux nœuds JSON correspondants. Column : les cellules de la colonne Column sont automatiquement renseignées avec le nom des colonnes définies dans le schéma. Json query/JSONPath query : spécifie le nœud JSONPath contenant les données souhaitées. Pour plus d'informations concernant les expressions JSONPath, consultez http://goessner.net/articles/JsonPath/ (en anglais). Cette colonne est disponible uniquement lorsque l'option JsonPath est sélectionnée dans la liste Read By. XPath query : spécifie le nœud XPath contenant les données souhaitées. Cette colonne est disponible uniquement lorsque l'option Xpath est sélectionnée dans la liste Read By. Get Nodes : cochez cette case pour extraire les données JSON de tous les nœuds ou cochez la case à côté d'un nœud spécifique pour en extraire les données. Cette colonne est disponible uniquement lorsque l'option Xpath est sélectionnée dans la liste Read By.

Advanced settings

Advanced separator (for number)	Cochez cette case pour modifier le séparateur utilisé pour les nombres. Par défaut, le séparateur des milliers est une virgule (,) et le séparateur décimal est un point (.).
Validate date	Cochez cette case pour vérifier strictement le format de date par rapport au schéma d'entrée.
Encoding	Sélectionnez l'encodage à partir de la liste, ou sélectionnez Custom et définissez-le manuellement.

Global Variables

Variables globales	ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case. Une variable Flow fonctionne durant l'exécution d'un composant. Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser. Pour plus d'informations concernant les variables, consultez le Guide d'utilisation du Studio Talend.

Variables globales

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide d'utilisation du Studio Talend.

Utilisation

Règle d'utilisation	Dans un Job Talend Map/Reduce, ce composant est utilisé comme composant de début et requiert un composant de transformation comme lien de sortie. Les autres composants utilisés avec lui doivent également être des composants Map/Reduce. Ils génèrent nativement du code Map/Reduce pouvant être exécuté directement dans Hadoop. Une fois qu'un Job Map/Reduce est ouvert dans l'espace de modélisation graphique, le tFileInputJSON et toute la famille MapReduce apparaissent dans la Palette du Studio. Pour plus d'informations concernant les Jobs Map/Reduce Talend, consultez les sections décrivant comment créer, convertir et configurer un Job Map/Reduce Talend, dans le Guide de prise en main de Talend Big Data. Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données et non des Jobs Map/Reduce.
Hadoop Connection	Vous devez utiliser l'onglet Hadoop Configuration de la vue Run afin de définir la connexion à une distribution Hadoop donnée pour le Job complet. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.
Prérequis	La distribution Hadoop doit être correctement installée afin de garantir les interactions avec le Studio Talend . La liste suivante présente des informations d'exemple relatives à MapR. Assurez-vous d'avoir installé le client MapR sur la même machine que le Studio et d'avoir ajouté la bibliothèque client de MapR dans la variable PATH de cette machine. D'après la documentation de MapR, la ou les bibliothèques du client MapR correspondant à chaque OS peuvent être trouvées dans MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\native. Par exemple, pour Windows, la bibliothèque est lib\MapRClient.dll dans le fichier Jar du client MapR. Pour plus d'informations, consultez la page suivante sur le site de MapR : http://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-mapr (en anglais). Si vous n'ajoutez pas de librairie, il est possible que vous rencontriez l'erreur suivante : `no MapRClient in java.library.path`. Configurez l'argument `-Djava.library.path`, par exemple, dans la zone Job Run VM arguments de la vue Run/Debug de la boîte de dialogue Preferences dans le menu Window. Cet argument fournit au Studio le chemin d'accès à la bibliothèque native du client MapR. Cela permet aux utilisateurs et utilisatrices en souscription d'utiliser entièrement l'aperçu des données (Data viewer) afin de visualiser localement dans le Studio les données stockées dans MapR. Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez.

Règle d'utilisation

Dans un Job Talend Map/Reduce, ce composant est utilisé comme composant de début et requiert un composant de transformation comme lien de sortie. Les autres composants utilisés avec lui doivent également être des composants Map/Reduce. Ils génèrent nativement du code Map/Reduce pouvant être exécuté directement dans Hadoop.

Une fois qu'un Job Map/Reduce est ouvert dans l'espace de modélisation graphique, le tFileInputJSON et toute la famille MapReduce apparaissent dans la Palette du Studio.

Pour plus d'informations concernant les Jobs Map/Reduce Talend, consultez les sections décrivant comment créer, convertir et configurer un Job Map/Reduce Talend, dans le Guide de prise en main de Talend Big Data.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données et non des Jobs Map/Reduce.

Hadoop Connection

Vous devez utiliser l'onglet Hadoop Configuration de la vue Run afin de définir la connexion à une distribution Hadoop donnée pour le Job complet.

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Prérequis

La distribution Hadoop doit être correctement installée afin de garantir les interactions avec le Studio Talend . La liste suivante présente des informations d'exemple relatives à MapR.

Assurez-vous d'avoir installé le client MapR sur la même machine que le Studio et d'avoir ajouté la bibliothèque client de MapR dans la variable PATH de cette machine. D'après la documentation de MapR, la ou les bibliothèques du client MapR correspondant à chaque OS peuvent être trouvées dans MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\native. Par exemple, pour Windows, la bibliothèque est lib\MapRClient.dll dans le fichier Jar du client MapR. Pour plus d'informations, consultez la page suivante sur le site de MapR : http://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-mapr (en anglais).

Si vous n'ajoutez pas de librairie, il est possible que vous rencontriez l'erreur suivante : no MapRClient in java.library.path.
Configurez l'argument -Djava.library.path, par exemple, dans la zone Job Run VM arguments de la vue Run/Debug de la boîte de dialogue Preferences dans le menu Window. Cet argument fournit au Studio le chemin d'accès à la bibliothèque native du client MapR. Cela permet aux utilisateurs et utilisatrices en souscription d'utiliser entièrement l'aperçu des données (Data viewer) afin de visualiser localement dans le Studio les données stockées dans MapR.

Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez.