tAlfrescoOutput - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Notez que ce composant est déprécié.

Fonction

Le composant tAlfrescoOutput permet de créer des documents dématérialisés sur un serveur Alfresco où ils sont indexés selon des modèles significatifs.

Objectif

Ce composant permet de créer et de gérer des documents sur un serveur Alfresco.

Procédure d'installation

Pour pouvoir utiliser le composant tAlfrescoOutput dans la perspective Integration du Studio Talend, vous devez tout d'abord installer le serveur Alfresco ainsi que quelques ressources utiles.

Les sous-sections ci-après indiquent en détail les conditions préalables nécessaires, ainsi que la procédure d'installation.

Conditions préalables

Commencez par exécuter les opérations suivantes :

  1. Téléchargez le fichier alfresco-community-tomcat-2.1.0.zip

  2. Dézippez-le dans un dossier d'installation, par exemple : C:\Program Files\Java\jdk1.6.0_27

  3. Installez JDK 1.6.0+

  4. Effectuez une mise à jour de la variable JAVA_HOME (JAVA_HOME= C:\alfresco)

  5. A partir du dossier d'installation (C:\alfresco), lancez le serveur Alfresco en utilisant le script alf_start.bat

Avertissement

Assurez-vous que le serveur Alfresco est bien lancé avant d'utiliser le composant tAlfrescoOutput.

Installation du module Talend Alfresco

Notez que le fichier talendalfresco_20081014.zip est proposé avec le composant tAlfrescoOutput dans la perspective Integration du Studio Talend.

Pour installer le module Talend Alfresco :

  1. A partir du fichier talendalfresco_20081014.zip, dans le dossier talendalfresco_20081014\alfresco, recherchez les fichiers JAR suivants : stax-api-1.0.1.jar, wstx-lgpl-3.2.7.jar, talendalfresco-client_1.0.jar et talendalfresco-alfresco_1.0.jar, puis déplacez-les vers C:\alfresco\tomcat\webapps\alfresco\WEB-INF\lib

  2. Ajoutez le filtre d'identification des commandes au fichier web.xml situé au chemin d'accès C:\alfresco\tomcat\webapps\alfresco\WEB-INF son WEB-INF/, d'après le modèle de l'exemple situé dans le dossier talendalfresco_20081014/alfresco du fichier zippé talendalfresco_20081014.zip

    Les capture d'écran ci-dessous montrent la partie à ajouter (lignes en bleu) au fichier web.xml alfresco.

Informations utiles pour une utilisation avancée du composant

Installer de nouveaux types pour Alfresco :

A partir du fichier package_jeu_test.zip , dans le dossier package_jeu_test/fichiers_conf_alfresco2.1, recherchez les fichiers suivants : xml H76ModelCustom.xml (description du modèle), web-client-config-custom.xml (interface Web du modèle) et custom-model-context.xml (enregistrement du nouveau modèle), puis collez-les dans le dossier suivant : C:/alfresco/tomcat/shared/classes/alfresco/extension

Dates :

  • Les dates doivent correspondre au type Talend, java.util.Date

  • Les colonnes qui ne comportent ni mapping, ni valeur par défaut (celles du type Date par exemple) se voient attribuer une chaîne de caractères vide.

    Solution : effacez toutes les colonnes sans mapping ni valeur par défaut. Notez cependant qu'une modification de type Alfresco les rétablira.

Contenu :

  • Ne confondez pas le chemin d'accès au fichier dont vous voulez créer le contenu et celui de son emplacement cible sur Alfresco.

  • N'oubliez pas l'URL. Elle permet de cibler de nombreux protocoles, dont le transfert de fichiers et le HTTP.

  • Précédez les URLs renvoyant à des fichiers du système de fichiers en réseau de "file:", si vous utilisez Windows en local, ou de "file://", si vous utilisez soit Windows sur un réseau (qui accepte également la mention "file: \ \"), soit Linux.

  • N'utilisez jamais la double barre oblique inversée (\\) dans le chemin d'accès cible (échappement automatique), à moins que vous n'entriez le chemin directement dans les propriétés de base (Basic settings) du composant tAlfrescoOutput ou que vous n'effectuiez une concaténation, dans l'éditeur tMap par exemple.

Propriétés multiples ou associations :

  • Il est possible de n'en créer qu'une seule par document en y mappant une valeur String, ou une ou plusieurs en y mappant une valeur List(objet).

  • Il est possible de vider une propriété multiple en lui mappant une liste vide que vous pouvez créer, par exemple, en utilisant la commande new java.util.ArrayList()dans le composant tMap.

En revanche, il est impossible de supprimer une association.

Faire des List(object)avec le composant tAggregate :

  • définissez dans un fichier une table de relation n-n, contenant par exemple une ligne name (pouvant être retrouvée dans les input rows) et une ligne category (pouvant être définie avec son mapping dans un fichier tiers).

  • group by : input name, output name.

  • opération : output categoryList, fonction list(object), input category. ATTENTION il s'agit d'une list (object) et non d'une simple list !

Références (documents et dossiers) :

  • Les références sont créées par mapping d'une ou plusieurs références de nœud existantes (xpath ou namepath), en type String ou List(object).

  • Une erreur dans l'association ou la propriété de type référence n'empêche pas la création du nœud qui la porte.

  • Les propriétés de type référence sont créées dans l'onglet des propriétés standards (Basic settings).

  • Les associations sont créées dans l'onglet des propriétés avancées (Advanced settings).

Dématérialisation, tAlfrescoOutput et Gestion de Contenu

La dématérialisation est le processus qui sert à convertir les documents concrets au format numérique, permettant ainsi de passer d'une utilisation de documentation physique à des systèmes de Gestion de Contenu électroniques. Un système de Gestion de Contenu permet de gérer un large éventail de documents, allant des plus basiques aux certificats d'actions par exemple.

Les entreprises procèdent à la dématérialisation de leur contenu par traitement des documents, qui peut être réalisé soit à la main, soit de manière automatique grâce à une machine

Compte tenu de la diversité des contenus à dématérialiser, les entreprises sont obligées d'utiliser des technologies diverses. Scanner les documents papier, créer des interfaces pour capter les documents électroniques d'autres applications, convertir les documents images en documents textes lisibles et modifiables par une machine... Ceci n'est qu'un exemple des technologies employées.

De plus, les documents scannés ainsi que les fax numériques ne peuvent être lus par des machines. Différentes technologies de reconnaissance des caractères sont utilisées pour les convertir en données utilisables. La Reconnaissance de Caractères Manuscrits (RCM) et la Reconnaissance Optique de Marques (ROM) en sont deux exemples.

Les métadonnées de support, qui permettent d'identifier le contenu de manière efficace grâce à des requêtes spécifiques, sont au moins aussi importantes que le contenu capté lors de la dématérialisation, en différents formats et à partir de nombreuses sources.

Dès lors, comment agréger et indexer dans un système de Gestion de Contenu le contenu d'un document en même temps que ses métadonnées associées, pour qu'il puisse être extrait et traité de manière significative ? Talend vous apporte la réponse par le biais de son composant tAlfrescoOutput.

Le composant tAlfrescoOutput vous permet de stocker et de gérer vos documents électroniques, ainsi que les métadonnées qui y sont associées, sur le serveur Alfresco, système leader sur le marché de la Gestion de Contenu.

La figure ci-dessous illustre le rôle de Talend à la fois dans le processus de dématérialisation et dans le système Gestion de Contenu (Alfresco).

Propriétés du tAlfrescoOutput

Famille du composant

Business

 

Basic settings

URL

Saisissez l'URL pour vous connecter à l'application Web Alfresco.

 

Login et Password

Entrez les données d'identification de l'utilisateur au serveur Alfresco.

Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres.

Target Location

Base

Saisissez le chemin d'accès de l'emplacement où stocker le document, ou

Cochez la case Map... puis choisissez, à partir de la liste déroulante Column, l'emplacement d'arrivée.

Note

Lorsque vous saisissez le nom de l'emplacement, assurez-vous de le protéger par des doubles barres obliques inversées (\\).

Create Or Update Mode

Document Mode

Sélectionnez, à partir de la liste déroulante, le mode que vous voulez utiliser pour créer votre document.

Create only : permet de créer un document s'il n'existe pas préalablement.

Notez cependant qu'un message d'erreur apparaîtra si vous essayez de créer un document qui existe déjà.

Create or update : permet de créer un document qui n'existe pas encore ou de mettre à jour un document existant.

 

Container Mode

Sélectionnez, à partir de la liste déroulante, le mode que vous voulez utiliser pour le dossier de destination sur le serveur Alfresco.

Update only : permet de mettre à jour un dossier de destination déjà existant.

Notez cependant qu'un message d'erreur apparaîtra si vous essayez de mettre à jour un document qui n'existe pas.

Create or update : permet de créer un dossier de destination s'il n'existe pas au préalable, ou de mettre à jour un dossier existant.

 

Define Document Type

Cliquez sur les trois points [...] pour afficher l'éditeur tAlfrescoOutput. Cet éditeur vous permet :

- de sélectionner le fichier dans lequel vous avez défini les métadonnées pour servir de cadre lors de l'enregistrement du document sur Alfresco

- de définir le type du document

- de sélectionner, à partir de la liste déroulante available aspects, l'un des aspects du modèle, puis de cliquer sur le bouton [+] pour ajouter cet aspect à la liste de gauche.

 

Property Mapping

Affiche les paramètres renseignés dans l'éditeur tAlfrescoOutput, selon lesquels le document sera créé sur le serveur Alfresco.

Notez que vous pouvez modifier n'importe lequel des schémas d'entrée de la zone Property Mapping.

 

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

Result Log File Name

Permet de parcourir le fichier dans lequel vous voulez enregistrer les logs liés à l'exécution du Job.

 

Die on error

Cette case est décochée par défaut, afin d'ignorer les lignes en erreur et de terminer le traitement avec les lignes sans erreur. Si nécessaire, vous pouvez récupérer les lignes en erreur via un lien Row > Rejects.

Advanced settings

Configure Target Location Container

Permet de configurer le type par défaut des conteneurs.

Cochez cette case pour afficher de nouveaux champs dans lesquels vous pouvez modifier le type du conteneur et utiliser les types que vous avez créés sur le modèle père/fils.

Permissions

Configure Permissions

Lorsque cette case est cochée, l'option permet de configurer manuellement les droits d'accès aux conteneurs et aux documents.

Cochez la case Inherit Permissions pour synchroniser les droits d'accès entre les conteneurs et les documents.

Cliquez sur le bouton [+] pour ajouter de nouvelles lignes à la liste Permissions ; vous pourrez alors assigner des rôles à un utilisateur ou groupe d'utilisateurs dans les colonnes User or group et User or group column.

 

Encoding

Sélectionnez le type d'encodage à partir de la liste ou choisissez l'option Custom pour le définir manuellement. Ce champ doit obligatoirement être renseigné.

 

Association Target Mapping

Permet de créer de nouveaux documents sur Alfresco qui contiennent des liens associés à des documents déjà existants sur ce serveur, pour faciliter le processus de navigation par exemple.

Pour créer des associations :

  1. Ouvrez l'éditeur tAlfresco.

  2. Cliquez sur le bouton Add puis sélectionnez un modèle pour lequel vous avez déjà défini des aspects contenant des associations.

  3. Cliquez sur la liste déroulante, en haut de la fenêtre de l'éditeur, et sélectionnez le type de document correspondant.

  4. Cliquez sur OK pour fermer l'éditeur et afficher l'association ainsi créée dans la liste Association Target Mapping.

 

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant.

Global Variables

NB_LINE : nombre de lignes lues par un composant d'entrée ou passées à un composant de sortie. Cette variable est une variable After et retourne un entier.

NB_LINE_REJECTED : nombre de lignes rejetées. Cette variable est une variable After et retourne un entier.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est généralement utilisé en tant que composant de sortie et requiert un composant de début.

Limitation/prérequis

Pour pouvoir utiliser le composant tAlfrescoOutput, certaines ressources doivent être installées. Pour plus d'informations, consultez la sous-section Procédure d'installation ci-dessous.

Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les Jar manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre studio. Pour plus d'informations, consultez l'article Installation de modules externes sur Talend Help Center (https://help.talend.com) ou la section décrivant comment configurer le studio, dans le Guide d'installation Talend.

Scénario : Créer des documents sur un serveur Alfresco

Ce scénario Java décrit un Job à deux composants permettant de créer deux fichiers de documents et leurs métadonnées associées sur un serveur Alfresco, le système de Gestion de Contenu en Java.

Configurer votre Job

  1. A partir de la Palette, cliquez-déposez les composants tFileInputDelimited et tAlfrescoOutput sur l'éditeur graphique.

  2. Reliez ces deux composant à l'aide d'un lien Row Main.

Configurer le schéma

  1. Dans l'éditeur graphique, double-cliquez sur le tFileInputDelimited pour en afficher les paramètres de base (Basic settings).

  2. Renseignez le chemin d'accès au fichier dans le champ File Name ainsi que toutes les autres propriétés. Notez cependant que si vous avez déjà stocké vos schémas d'entrée en local dans le Repository, vous pouvez tout simplement récupérer le fichier choisi à partir du nœud Metadata et le déposer sur l'éditeur graphique. Les paramètres du fichier délimité s'afficheront alors automatiquement dans les champs concernés de l'onglet Basic settings du composant concerné.

    Note

    Pour plus d'informations concernant les métadonnées, consultez le Guide utilisateur du Studio Talend.

    Dans ce scénario, le fichier délimité présente les métadonnées et le chemin d'accès de deux documents que vous allez créer sur le serveur Alfresco. Le schéma d'entrée des documents de décompose en quatre colonnes : file_name, destination_folder name, source_path, et author.

    Le schéma d'entrée du fichier délimité sera donc comme suit :

Configurer la connexion au serveur Alfresco

  1. Dans l'éditeur graphique, double-cliquez sur le composant tAlfrescoOutput pour en afficher les paramètres de base (Basic settings).

  2. Dans la partie Alfresco Server, saisissez l'URL du serveur Alfresco ainsi que les données d'identification de l'utilisateur dans les champs correspondants.

  3. Dans la partie TargetLocation, vous pouvez soit saisir le nom de l'emplacement du serveur où vous voulez stocker le document, soit cocher la case Map... puis choisir l'emplacement cible à partir de la liste déroulante Column, soit destination_folder_name dans ce scénario.

    Note

    Lorsque vous renseignez le nom de l'emplacement, assurez vous de bien utiliser le caractère d'échappement double barre oblique inversée (\\).

  4. Dans la liste déroulante Document Mode, sélectionnez le mode que vous voulez utiliser pour la création de vos documents.

  5. Dans la liste déroulante Container Mode, sélectionnez le mode que vous voulez utiliser pour le dossier de destination sur Alfresco.

Définir le document

  1. Cliquez sur le bouton [...] de l'option Define Document Type pour ouvrir l'éditeur tAlfrescoOutput.