Glossaire - 6.1

Talend Data Fabric Guide de prise en main

EnrichVersion
6.1
EnrichProdName
Talend Data Fabric
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Lorsque vous travaillez avec le Studio Talend et afin de comprendre son mécanisme fonctionnel, il est important de comprendre le vocabulaire de base.

Termes génériques

composant

Un composant, component en anglais, est une partie exécutable d'un Job ou d'une Route utilisé pour se connecter à une source externe ou exécuter une opération d'intégration de données spécifique, quel que soit le type de données que vous souhaitez intégrer (bases de données, applications, fichiers plats, services Web, etc.). Un composant permet d'éviter le plus possible le codage manuel nécessaire au traitement des données provenant de sources multiples et hétérogènes.

Les composants sont regroupés dans des familles en fonction de leur utilisation et apparaissent dans la Palette de la perspective Integration du Studio Talend.

Pour plus d'informations concernant les différents types de composants et leurs utilisations, consultez le Guide de référence des Composants Talend.

élément

Les éléments, item en anglais, sont les unités techniques constituant un projet. Ces éléments sont regroupés en fonction de leur type : Job Design,Business Model, Context, Code, Metadata, etc. Un élément peut comprendre plusieurs autres éléments. Ainsi, les Business Models et les Jobs que vous créez sont des éléments, tout comme les métadonnées et les contextes que vous utilisez dans les Jobs.

Job

Un Job est un concept graphique, composé d'un ou plusieurs composants reliés entre eux. Il vous permet de mettre en place des processus opérationnels de gestion des flux. Il traduit des besoins métier en code, routines et programmes. Les Jobs utilisent les différentes sources et cibles nécessaires aux processus d'intégration de données ou tout autre processus lié.

Job de services de données

Un Job de services de données est un concept graphique d'un ou plusieurs composant(s) reliés entre eux, vous permettant de configurer et d'exécuter des processus de services de données. Il traduit des besoins métier en code, routines et programmes. Les Jobs de services de données utilisent les différentes sources et cibles nécessaires aux processus d'intégration de données et les combinent à des services Web.

Note

Les Jobs de services de données seront mentionnés comme Jobs dans la documentation.

Joblet

Un Joblet est un composant spécifique remplaçant des groupes de composants dans un Job. Il factorise des étapes récurrentes de traitement ou de transformation complexes pour faciliter la lecture d'un Job complexe. Les Joblets peuvent être réutilisés dans différents Jobs ou plusieurs fois dans un même Job.

metadata

Les métadonnées sont des informations décrivant les caractéristiques d'un objet de données, comme son nom, son type, son emplacement, son auteur, sa date de création, sa taille, etc, ainsi que ses relations avec d'autres objets de données que l'entreprise doit gérer ou qu'un outil informatique gère. Les métadonnées peuvent être créées manuellement ou automatiquement par un système.

projet

Un projet est un ensemble structuré d'éléments et de leurs métadonnées associées. Ce qui signifie que tous les Jobs et Business Models que vous créez sont organisés en Projets.

Vous pouvez créer autant de projets que vous le souhaitez dans un référentiel.

référentiel

Un référentiel, repository en anglais, est un espace de stockage utilisé par le Studio Talend pour regrouper toutes les données liées aux éléments techniques utilisés soit pour décrire les Business Models, soit pour créer les Jobs.

Le Studio Talend peut se connecter à autant de référentiels locaux ou distants que nécessaire.

Route

Une Route Camel est un concept graphique, basé sur le framework Apache Camel, de deux composants ou plus reliés les uns aux autres, vous permettant de configurer et d'exécuter des règles de routage et de médiation. Une règle de routage définit la façon dont les messages sont déplacés d'un service (ou d'un endpoint) à un autre.

Service

Un Service est un concept graphique de plusieurs objets WSDL (service, binding, type de port, etc.) reliés ensemble et vous permettant de configurer et d'implémenter des services Web. Un Service est associé à un ou plusieurs Jobs de services de données, comme le fournisseur de service et peut être consommé par des Jobs consommateurs.

workspace

Un répertoire workspace est un répertoire dans lequel sont stockés tous les dossiers de vos projets. Vous devez avoir un répertoire workspace par connexion (connexion au référentiel). Le Studio Talend vous permet de vous connecter à différents répertoires workspace, si vous ne souhaitez pas utiliser celui créé par défaut.

Termes pour MDM de Talend

advanced validation rules (règles de validation avancées)

Extension du schéma XML standard pour fournir des règles de validation plus avancées, sans avoir à programmer.

annotation

Donne une description concernant les métadonnées que l'administrateur a "attachées" à une Entité dans le modèle de données.

consumer (consommateur)

Consomme des données du hub MDM. Un consommateur peut également être un fournisseur.

data container (conteneur de données)

Contient les données d'une ou plusieurs entité(s) métier. Les conteneurs de données sont généralement utilisés pur séparer les domaines de données maître.

data governance (gouvernance de données)

Processus de définition des règles que les données doivent suivre dans une entreprise.

data model (modèle de données)

Définit les attributs, les règles de validation, les droits d'accès des utilisateurs ainsi que les relations des entités gérées par le hub MDM. Le modèle de données est le composant central du MDM de Talend. Un modèle de données mappe vers une seule entité pouvant être explicitement défini(e). Tout concept peut être défini par un modèle de données.

data stewardship (arbitrage des données)

Processus de validation des données maître par rapport aux règles (modèles de données) définies dans le Studio.

domain (domaine)

Une collection de modèles de données définissant un concept particulier. Par exemple, le domaine peut être défini par les modèles de données "entreprise, "compte", "contact" et "opportunité". Un domaine de produit doit être défini par un produit, une famille de produits et une liste de prix. Le domaine est la collection de toutes les entités (modèles de données) relatifs à un concept. La solution de MDM de Talend peut modéliser n'importe quel domaine et de nombreux domaines dans un seul hub. C'est une solution MDM générique multi-domaine.

entity (entité)

Décrit les données courantes, leur nature, leur structure et leurs relations. Un modèle de données peut avoir plusieurs entités.

Event Manager (gestionnaire d'événement)

Un service du hub MDM responsable du routage des événements levés par le hub MDM hub pour les déclencher, évaluer leurs conditions, exécuter les processus et suivre les actions actives / terminées / échouées dans le but de les monitorer.

MDM hub (hub MDM)

Définit une implémentation complète de la solution de MDM de Talend. Il est constitué de composants pour l'intégration, la qualité, le modèle de données maître, d'une interface de connexion à la base de données XML et d'une base de données opérationnelle, de services Web, de Contrôles d'accès basés sur des rôles, d'un moteur de workflow, d'une interface Web MDM et de composants d'arbitrage des données. Le hub MDM est configuré pour répondre aux différents besoins métier.

process (processus)

Un processus est exécuté lorsque la condition spécifiée par le déclencheur correspondant est vérifiée. Un processus peut avoir plusieurs "étapes", chaque étape effectuant une tâche spécifique, comme : mettre à jour un enregistrement dans le hub, exécuter un Job Talend, instancier un workflow, etc.

provider (fournisseur)

Alimente des données dans le hub MDM.

record (enregistrement)

Une instance de données définie par un modèle de données dans le hub MDM. Deux enregistrements peuvent être comparés et considérés comme similaires ou comme correspondance proche. Dans ce cas, les enregistrements seront liés et l'un pourra ou ne pourra pas survivre.

Roles Based Access Control, RBAC (Contrôles d'accès à base de rôles)

Définit les règles d'accès aux tâches ou aux données du hub selon le rôle de la personne du système ou de la fonction qui y accède.

Talend Studio (Studio Talend)

L'interface d'administration basée sur Eclipse. Elle permet à l'administrateur du système de gérer et maintenir le hub MDM et tous les Jobs d'intégration de données associés via une seule console.

trigger (déclencheurs)

Condition(s) pour qu'un processus soit exécuté, selon les événements du hub MDM. Exemple d'une condition d'un déclencheur : "Agence créée et Agence/Revenu > 100". Un événement peut rendre plusieurs conditions vraies, ce qui déclenchera l'exécution de plusieurs processus. Les déclencheurs sont utilisés pour signaler lorsque des processus spécifiques comme les notifications, les vérifications de doublons, les enrichissements d'enregistrements, les propagations aux systèmes back-end, les workflows de validation, etc. doivent être exécutés.

view (vue)

Une vue complète ou un sous-ensemble d'une vue d'un enregistrement. Une vue complète affiche tous les éléments ou toutes les colonnes d'une entité, alors qu'un sous-ensemble d'une vue affiche quelques éléments ou colonnes d'une entité. Une vue peut restreindre les accès aux attributs selon qui (ou ce qui) demande les données.

Terms in qualité de données Talend

advanced statistics (statistiques avancées)

Cet indicateur détermine les valeurs les plus probables et les plus fréquentes et construit des tables de fréquence.

Benford Law Frequency (Loi de Benford)

Indicateur basé sur l'examen de la fréquence des chiffres 1 à 9 dans des données numériques. Il est généralement utilisé en tant qu'indicateur détectant la fraude en comptabilité et dans les dépenses, dans des listes ou des tables.

Profiling de données

Processus d'examen des données disponibles dans différentes sources de données et de collection des statistiques et informations concernant ces données. Le profiling de données permet d'évaluer le niveau de qualité des données selon l'objectif défini.

Data Quality Portal

Plateforme basée Web partageant les résultats des analyses et permettant de les exploiter.

Il permet la génération de rapports avancés et la comparaison des statistiques historiques et actuelles afin de déterminer s'il y a eu amélioration ou dégradation des données.

indicators (indicateurs)

Résultats des implémentations d'analyses complexes relative à la mise en correspondance des données et d'autres opérations sur les données.

Ils appartiennent à une catégorie ou à l'autre : "indicateurs système" ou "indicateurs personnalisés".

patterns (modèles)

Ensembles de chaînes de caractères par rapport auxquels vous pouvez définir le contenu, la structure et la qualité de données hautement complexes.

Ils appartiennent à une catégorie ou à l'autre : "expressions régulières" ou "modèles SQL".

pattern frequency statistics (statistiques de fréquence des modèles)

Indicateur déterminant le modèle le plus fréquent et le moins fréquent dans un jeu de données.

phone number statistics (statistiques de numéros de téléphone)

Indicateur comptant le nombre de numéros de téléphone. Il retourne le compte pour chaque format de numéro de téléphone. Il valide les formats de numéros téléphone à l'aide de la bibliothèque org.talend.libraries.google.libphonumber.

regular expressions (regex)

Modèles prédéfinis que vous pouvez utiliser pour rechercher et manipuler des données dans des bases de données.

Rapports

Un document que vous pouvez générer sur une ou plusieurs analyses depuis la perspective Profiling du Studio pour fournir les statistiques collectées par les analyses. Vous pouvez générer des rapports en différents formats.

simple statistics (statistiques simples)

Cet indicateur fournit des statistiques simples concernant le nombre d'enregistrements appartenant à certaines catégories, notamment le nombre de lignes, le nombre de valeurs null, le nombre de valeurs distinctes et unique, le nombre de doublons ou le nombre de champs vides (blancs).

soundex frequency statistics (statistiques de fréquence Soundex)

Cet indicateur utilise l'algorithme Soundex construit dans le SGBD. Il indexe les enregistrements par son. Ainsi, les enregistrements ayant la même prononciation (prononciation anglaise uniquement) sont encodés dans la même représentation afin de pouvoir être mis en correspondance, même s'il y a des différences mineures dans l'orthographe.

SQL patterns (modèles SQL)

Modèles personnalisés que vous pouvez utiliser dans des requêtes SQL. Ces modèles contiennent généralement le symbole pourcentage (%).

summary statistics (résumé statistique)

Cet indicateur effectue des analyses statistiques sur des données numériques, calculant notamment de mesures de XXX of location measures comme la médiane et la moyenne, le calcul des dispersions statistiques comme l'écart et l'écart interquartile.

text statistics (statistiques de texte)

Cet indicateur analyse les caractéristiques des champs textuels dans les colonnes, notamment les longueurs minimale, maximale et moyenne.