tTransliterate - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'un des produits Talend Platform.

Fonction

Le composant tTransliterate convertit des chaînes de caractères de différentes langues du monde en un ensemble standard de caractères (Universal Coded Character Set, UCS). Cette conversion est une opération phonétique, dans laquelle le composant tTransliterate essaye de créer en UCS un équivalent de la chaîne de caractères originale, en se basant sur le son que cette chaîne représente.

Objectif

Le tTransliterate vous permet d'encoder des textes rédigés dans différents systèmes d'écriture du monde en caractères lisibles, en se basant sur le répertoire du standard Unicode. Vous pouvez reconnaître et interpréter des mots de différentes langues plus facilement que si les caractères étaient toujours dans leur écriture originale. Ce composant permet les échanges internationaux, le traitement et l'affichage de textes écrits dans différentes langues.

Pour plus d'informations concernant Unicode et le standard Unicode, consultez Unicode et Unicode Standard (en anglais)

Propriétés du tTransliterate

Famille du composant

Data Quality

 

Basic settings

Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Edit Schema

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, sélectionnez No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

Transliteration

Cette table liste les colonnes définies dans le schéma du composant tTransliterate.

Cochez les cases Transliterate à côté des colonnes dont vous souhaitez convertir le contenu un ensemble de caractères standards lisibles.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est une étape intermédiaire et nécessite un flux d'entrée et un flux de sortie.

Limitation

n/a

Scénario : Convertir des mots de différentes langues en un ensemble de caractères standards

Ce scénario décrit un Job utilisant :

  • un composant tFixedFlowInput pour générer les données à traiter,

  • un tTransliterate pour encoder les données initiales exprimées en différentes langues en des caractères lisibles, basés sur le répertoire du standard Unicode,

  • un tFileOutputExcel pour écrire en sortie les données converties dans un fichier .xls.

Construire le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFixedFlowInput, un tTransliterate et un tFileOutputExcel.

  2. Reliez ces trois composants à l'aide de liens Row > Main.

Configurer le composant d'entrée

  1. Double-cliquez sur le tFixedFlowInput pour ouvrir sa vue Basic settings.

  2. Créez le schéma en cliquant sur le bouton [...] à côté du champ Edit Schema.

    Dans la boîte de dialogue ouverte, cliquez sur le bouton [+] et ajoutez les colonnes qui contiendront vos données d'entrée. Dans cet exemple, ajoutez column1, column2, column3 et column4. Les deux premières colonnes contiennent des noms écrits dans différentes langues.

  3. Cliquez sur OK.

  4. Dans le champ Number of rows, saisissez 1.

  5. Dans la zone Mode, sélectionnez l'option Use Inline Content.

  6. Dans la table Content, saisissez les données que vous souhaitez convertir en caractères lisibles, basés sur le répertoire du standard Unicode comme dans l'image ci-dessus.

Translittérer les données

  1. Double-cliquez sur le tTransliterate pour afficher sa vue Basic settings et définir ses propriétés.

  2. Si nécessaire, cliquez sur le bouton Sync columns afin de récupérer le schéma défini dans le composant d'entrée.

    Dans cet exemple, seules les deux premières colonnes sont traitées. Vous pouvez cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir le schéma et voir les schémas d'entrée et de sortie.

  3. Dans la table Transliteration de l'onglet Basic settings, cochez les cases à côté des colonnes à convertir en caractères standards.

Configurer le composant de sortie et exécuter le Job

  1. Double-cliquez sur le composant tFileOutputExcel pour afficher sa vue Basic settings et définir ses propriétés.

  2. Configurez le nom du fichier de destination, ainsi que le nom de la feuille, puis cochez la case Define all columns auto size.

  3. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

    Le composant tTransliterate encode des données d'entrée en caractères lisibles en se basant sur le répertoire du standard Unicode.

  4. Cliquez-droit sur le composant et sélectionnez Data Viewer pour afficher les données translittérées.

    Tous les noms écrits en caractères de différentes langues ont été convertis phonétiquement en un ensemble de caractères standards basés sur le jeu de caractères universel, Universal Coded Character Set (UCS). Par exemple, les noms de la première et de la deuxième lignes dans l'image ci-dessous ont été respectivement modifiés à Ragnarr,Lodbrok et Routse,Anna.

    Pour plus d'informations concernant Unicode et le standard Unicode, consultez Unicode et Unicode Standard (en anglais).