Propriétés du tAlfrescoOutput - 6.1

Composants Talend Open Studio Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Famille du composant

Business

 

Fonction

Le composant tAlfrescoOutput permet de créer des documents dématérialisés sur un serveur Alfresco où ils sont indexés selon des modèles significatifs.

Objectif

Ce composant permet de créer et de gérer des documents sur un serveur Alfresco.

Basic settings

URL

Saisissez l'URL pour vous connecter à l'application Web Alfresco.

 

Login et Password

Entrez les données d'identification de l'utilisateur au serveur Alfresco.

Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles, puis cliquez sur OK afin de sauvegarder les paramètres.

Target Location

Base

Saisissez le chemin d'accès de l'emplacement où stocker le document, ou

Cochez la case Map... puis choisissez, à partir de la liste déroulante Column, l'emplacement d'arrivée.

Note

Lorsque vous saisissez le nom de l'emplacement, assurez-vous de le protéger par des doubles barres obliques inversées (\\).

Create Or Update Mode

Document Mode

Sélectionnez, à partir de la liste déroulante, le mode que vous voulez utiliser pour créer votre document.

Create only : permet de créer un document s'il n'existe pas préalablement.

Notez cependant qu'un message d'erreur apparaîtra si vous essayez de créer un document qui existe déjà.

Create or update : permet de créer un document qui n'existe pas encore ou de mettre à jour un document existant.

 

Container Mode

Sélectionnez, à partir de la liste déroulante, le mode que vous voulez utiliser pour le dossier de destination sur le serveur Alfresco.

Update only : permet de mettre à jour un dossier de destination déjà existant.

Notez cependant qu'un message d'erreur apparaîtra si vous essayez de mettre à jour un document qui n'existe pas.

Create or update : permet de créer un dossier de destination s'il n'existe pas au préalable, ou de mettre à jour un dossier existant.

 

Define Document Type

Cliquez sur les trois points [...] pour afficher l'éditeur tAlfrescoOutput. Cet éditeur vous permet :

- de sélectionner le fichier dans lequel vous avez défini les métadonnées pour servir de cadre lors de l'enregistrement du document sur Alfresco

- de définir le type du document

- de sélectionner, à partir de la liste déroulante available aspects, l'un des aspects du modèle, puis de cliquer sur le bouton [+] pour ajouter cet aspect à la liste de gauche.

 

Property Mapping

Affiche les paramètres renseignés dans l'éditeur tAlfrescoOutput, selon lesquels le document sera créé sur le serveur Alfresco.

Notez que vous pouvez modifier n'importe lequel des schémas d'entrée de la zone Property Mapping.

 

Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, sélectionnez No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

Result Log File Name

Permet de parcourir le fichier dans lequel vous voulez enregistrer les logs liés à l'exécution du Job.

 

Die on error

Cette case est décochée par défaut, afin d'ignorer les lignes en erreur et de terminer le traitement avec les lignes sans erreur. Si nécessaire, vous pouvez récupérer les lignes en erreur via un lien Row > Rejects.

Advanced settings

Configure Target Location Container

Permet de configurer le type par défaut des conteneurs.

Cochez cette case pour afficher de nouveaux champs dans lesquels vous pouvez modifier le type du conteneur et utiliser les types que vous avez créés sur le modèle père/fils.

Permissions

Configure Permissions

Lorsque cette case est cochée, l'option permet de configurer manuellement les droits d'accès aux conteneurs et aux documents.

Cochez la case Inherit Permissions pour synchroniser les droits d'accès entre les conteneurs et les documents.

Cliquez sur le bouton [+] pour ajouter de nouvelles lignes à la liste Permissions ; vous pourrez alors assigner des rôles à un utilisateur ou groupe d'utilisateurs dans les colonnes User or group et User or group column.

 

Encoding

Sélectionnez le type d'encodage à partir de la liste ou choisissez l'option Custom pour le définir manuellement. Ce champ doit obligatoirement être renseigné.

 

Association Target Mapping

Permet de créer de nouveaux documents sur Alfresco qui contiennent des liens associés à des documents déjà existants sur ce serveur, pour faciliter le processus de navigation par exemple.

Pour créer des associations :

  1. Ouvrez l'éditeur tAlfresco.

  2. Cliquez sur le bouton Add puis sélectionnez un modèle pour lequel vous avez déjà défini des aspects contenant des associations.

  3. Cliquez sur la liste déroulante, en haut de la fenêtre de l'éditeur, et sélectionnez le type de document correspondant.

  4. Cliquez sur OK pour fermer l'éditeur et afficher l'association ainsi créée dans la liste Association Target Mapping.

 

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant.

Global Variables

NB_LINE : nombre de lignes lues par un composant d'entrée ou passées à un composant de sortie. Cette variable est une variable After et retourne un entier.

NB_LINE_REJECTED : nombre de lignes rejetées. Cette variable est une variable After et retourne un entier.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est généralement utilisé en tant que composant de sortie et requiert un composant de début.

Limitation/prérequis

Pour pouvoir utiliser le composant tAlfrescoOutput, certaines ressources doivent être installées. Pour plus d'informations, consultez la sous-section Procédure d'installation ci-dessous.

Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les Jar manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre studio. Pour plus d'informations, consultez la page https://help.talend.com/display/KB/How+to+install+external+modules+in+the+Talend+products (en anglais) ou la section décrivant comment configurer le studio, dans le Guide d'installation et de migration Talend.

Procédure d'installation

Pour pouvoir utiliser le composant tAlfrescoOutput dans la perspective Integration du Studio Talend, vous devez tout d'abord installer le serveur Alfresco ainsi que quelques ressources utiles.

Les sous-sections ci-après indiquent en détail les conditions préalables nécessaires, ainsi que la procédure d'installation.

Conditions préalables

Commencez par exécuter les opérations suivantes :

  1. Téléchargez le fichier alfresco-community-tomcat-2.1.0.zip

  2. Dézippez-le dans un dossier d'installation, par exemple : C:\Program Files\Java\jdk1.6.0_27

  3. Installez JDK 1.6.0+

  4. Effectuez une mise à jour de la variable JAVA_HOME (JAVA_HOME= C:\alfresco)

  5. A partir du dossier d'installation (C:\alfresco), lancez le serveur Alfresco en utilisant le script alf_start.bat

Avertissement

Assurez-vous que le serveur Alfresco est bien lancé avant d'utiliser le composant tAlfrescoOutput.

Installation du module Talend Alfresco

Notez que le fichier talendalfresco_20081014.zip est proposé avec le composant tAlfrescoOutput dans la perspective Integration du Studio Talend.

Pour installer le module Talend Alfresco :

  1. A partir du fichier talendalfresco_20081014.zip, dans le dossier talendalfresco_20081014\alfresco, recherchez les fichiers JAR suivants : stax-api-1.0.1.jar, wstx-lgpl-3.2.7.jar, talendalfresco-client_1.0.jar et talendalfresco-alfresco_1.0.jar, puis déplacez-les vers C:\alfresco\tomcat\webapps\alfresco\WEB-INF\lib

  2. Ajoutez le filtre d'identification des commandes au fichier web.xml situé au chemin d'accès C:\alfresco\tomcat\webapps\alfresco\WEB-INF son WEB-INF/, d'après le modèle de l'exemple situé dans le dossier talendalfresco_20081014/alfresco du fichier zippé talendalfresco_20081014.zip

    Les capture d'écran ci-dessous montrent la partie à ajouter (lignes en bleu) au fichier web.xml alfresco.

Informations utiles pour une utilisation avancée du composant

Installer de nouveaux types pour Alfresco :

A partir du fichier package_jeu_test.zip , dans le dossier package_jeu_test/fichiers_conf_alfresco2.1, recherchez les fichiers suivants : xml H76ModelCustom.xml (description du modèle), web-client-config-custom.xml (interface Web du modèle) et custom-model-context.xml (enregistrement du nouveau modèle), puis collez-les dans le dossier suivant : C:/alfresco/tomcat/shared/classes/alfresco/extension

Dates :

  • Les dates doivent correspondre au type Talend, java.util.Date

  • Les colonnes qui ne comportent ni mapping, ni valeur par défaut (celles du type Date par exemple) se voient attribuer une chaîne de caractères vide.

    Solution : effacez toutes les colonnes sans mapping ni valeur par défaut. Notez cependant qu'une modification de type Alfresco les rétablira.

Contenu :

  • Ne confondez pas le chemin d'accès au fichier dont vous voulez créer le contenu et celui de son emplacement cible sur Alfresco.

  • N'oubliez pas l'URL. Elle permet de cibler de nombreux protocoles, dont le transfert de fichiers et le HTTP.

  • Précédez les URLs renvoyant à des fichiers du système de fichiers en réseau de "file:", si vous utilisez Windows en local, ou de "file://", si vous utilisez soit Windows sur un réseau (qui accepte également la mention "file: \ \"), soit Linux.

  • N'utilisez jamais la double barre oblique inversée (\\) dans le chemin d'accès cible (échappement automatique), à moins que vous n'entriez le chemin directement dans les propriétés de base (Basic settings) du composant tAlfrescoOutput ou que vous n'effectuiez une concaténation, dans l'éditeur tMap par exemple.

Propriétés multiples ou associations :

  • Il est possible de n'en créer qu'une seule par document en y mappant une valeur String, ou une ou plusieurs en y mappant une valeur List(objet).

  • Il est possible de vider une propriété multiple en lui mappant une liste vide que vous pouvez créer, par exemple, en utilisant la commande new java.util.ArrayList()dans le composant tMap.

En revanche, il est impossible de supprimer une association.

Faire des List(object)avec le composant tAggregate :

  • définissez dans un fichier une table de relation n-n, contenant par exemple une ligne name (pouvant être retrouvée dans les input rows) et une ligne category (pouvant être définie avec son mapping dans un fichier tiers).

  • group by : input name, output name.

  • opération : output categoryList, fonction list(object), input category. ATTENTION il s'agit d'une list (object) et non d'une simple list !

Références (documents et dossiers) :

  • Les références sont créées par mapping d'une ou plusieurs références de nœud existantes (xpath ou namepath), en type String ou List(object).

  • Une erreur dans l'association ou la propriété de type référence n'empêche pas la création du nœud qui la porte.

  • Les propriétés de type référence sont créées dans l'onglet des propriétés standards (Basic settings).

  • Les associations sont créées dans l'onglet des propriétés avancées (Advanced settings).

Dématérialisation, tAlfrescoOutput et Gestion de Contenu

La dématérialisation est le processus qui sert à convertir les documents concrets au format numérique, permettant ainsi de passer d'une utilisation de documentation physique à des systèmes de Gestion de Contenu électroniques. Un système de Gestion de Contenu permet de gérer un large éventail de documents, allant des plus basiques aux certificats d'actions par exemple.

Les entreprises procèdent à la dématérialisation de leur contenu par traitement des documents, qui peut être réalisé soit à la main, soit de manière automatique grâce à une machine

Compte tenu de la diversité des contenus à dématérialiser, les entreprises sont obligées d'utiliser des technologies diverses. Scanner les documents papier, créer des interfaces pour capter les documents électroniques d'autres applications, convertir les documents images en documents textes lisibles et modifiables par une machine... Ceci n'est qu'un exemple des technologies employées.

De plus, les documents scannés ainsi que les fax numériques ne peuvent être lus par des machines. Différentes technologies de reconnaissance des caractères sont utilisées pour les convertir en données utilisables. La Reconnaissance de Caractères Manuscrits (RCM) et la Reconnaissance Optique de Marques (ROM) en sont deux exemples.

Les métadonnées de support, qui permettent d'identifier le contenu de manière efficace grâce à des requêtes spécifiques, sont au moins aussi importantes que le contenu capté lors de la dématérialisation, en différents formats et à partir de nombreuses sources.

Dès lors, comment agréger et indexer dans un système de Gestion de Contenu le contenu d'un document en même temps que ses métadonnées associées, pour qu'il puisse être extrait et traité de manière significative ? Talend vous apporte la réponse par le biais de son composant tAlfrescoOutput.

Le composant tAlfrescoOutput vous permet de stocker et de gérer vos documents électroniques, ainsi que les métadonnées qui y sont associées, sur le serveur Alfresco, système leader sur le marché de la Gestion de Contenu.

La figure ci-dessous illustre le rôle de Talend à la fois dans le processus de dématérialisation et dans le système Gestion de Contenu (Alfresco).