Glossaire - 6.1

Talend Real-time Big Data Platform Guide de prise en main

EnrichVersion
6.1
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Lorsque vous travaillez avec le Studio Talend et afin de comprendre son mécanisme fonctionnel, il est important de comprendre le vocabulaire de base.

composant

Un composant, component en anglais, est une partie exécutable d'un Job ou d'une Route utilisé pour se connecter à une source externe ou exécuter une opération d'intégration de données spécifique, quel que soit le type de données que vous souhaitez intégrer (bases de données, applications, fichiers plats, services Web, etc.). Un composant permet d'éviter le plus possible le codage manuel nécessaire au traitement des données provenant de sources multiples et hétérogènes.

Les composants sont regroupés dans des familles en fonction de leur utilisation et apparaissent dans la Palette de la perspective Integration du Studio Talend.

Pour plus d'informations concernant les différents types de composants et leurs utilisations, consultez le Guide de référence des Composants Talend.

élément

Les éléments, item en anglais, sont les unités techniques constituant un projet. Ces éléments sont regroupés en fonction de leur type : Job Design,Business Model, Context, Code, Metadata, etc. Un élément peut comprendre plusieurs autres éléments. Ainsi, les Business Models et les Jobs que vous créez sont des éléments, tout comme les métadonnées et les contextes que vous utilisez dans les Jobs.

Job

Un Job est un concept graphique, composé d'un ou plusieurs composants reliés entre eux. Il vous permet de mettre en place des processus opérationnels de gestion des flux. Il traduit des besoins métier en code, routines et programmes. Les Jobs utilisent les différentes sources et cibles nécessaires aux processus d'intégration de données ou tout autre processus lié.

Job de services de données

Un Job de services de données est un concept graphique d'un ou plusieurs composant(s) reliés entre eux, vous permettant de configurer et d'exécuter des processus de services de données. Il traduit des besoins métier en code, routines et programmes. Les Jobs de services de données utilisent les différentes sources et cibles nécessaires aux processus d'intégration de données et les combinent à des services Web.

Note

Les Jobs de services de données seront mentionnés comme Jobs dans la documentation.

Joblet

Un Joblet est un composant spécifique remplaçant des groupes de composants dans un Job. Il factorise des étapes récurrentes de traitement ou de transformation complexes pour faciliter la lecture d'un Job complexe. Les Joblets peuvent être réutilisés dans différents Jobs ou plusieurs fois dans un même Job.

metadata

Les métadonnées sont des informations décrivant les caractéristiques d'un objet de données, comme son nom, son type, son emplacement, son auteur, sa date de création, sa taille, etc, ainsi que ses relations avec d'autres objets de données que l'entreprise doit gérer ou qu'un outil informatique gère. Les métadonnées peuvent être créées manuellement ou automatiquement par un système.

projet

Un projet est un ensemble structuré d'éléments et de leurs métadonnées associées. Ce qui signifie que tous les Jobs et Business Models que vous créez sont organisés en Projets.

Vous pouvez créer autant de projets que vous le souhaitez dans un référentiel.

référentiel

Un référentiel, repository en anglais, est un espace de stockage utilisé par le Studio Talend pour regrouper toutes les données liées aux éléments techniques utilisés soit pour décrire les Business Models, soit pour créer les Jobs.

Le Studio Talend peut se connecter à autant de référentiels locaux ou distants que nécessaire.

Route

Une Route Camel est un concept graphique, basé sur le framework Apache Camel, de deux composants ou plus reliés les uns aux autres, vous permettant de configurer et d'exécuter des règles de routage et de médiation. Une règle de routage définit la façon dont les messages sont déplacés d'un service (ou d'un endpoint) à un autre.

Service

Un Service est un concept graphique de plusieurs objets WSDL (service, binding, type de port, etc.) reliés ensemble et vous permettant de configurer et d'implémenter des services Web. Un Service est associé à un ou plusieurs Jobs de services de données, comme le fournisseur de service et peut être consommé par des Jobs consommateurs.

workspace

Un répertoire workspace est un répertoire dans lequel sont stockés tous les dossiers de vos projets. Vous devez avoir un répertoire workspace par connexion (connexion au référentiel). Le Studio Talend vous permet de vous connecter à différents répertoires workspace, si vous ne souhaitez pas utiliser celui créé par défaut.

Terms in qualité de données Talend

advanced statistics (statistiques avancées)

Cet indicateur détermine les valeurs les plus probables et les plus fréquentes et construit des tables de fréquence.

Benford Law Frequency (Loi de Benford)

Indicateur basé sur l'examen de la fréquence des chiffres 1 à 9 dans des données numériques. Il est généralement utilisé en tant qu'indicateur détectant la fraude en comptabilité et dans les dépenses, dans des listes ou des tables.

Profiling de données

Processus d'examen des données disponibles dans différentes sources de données et de collection des statistiques et informations concernant ces données. Le profiling de données permet d'évaluer le niveau de qualité des données selon l'objectif défini.

Data Quality Portal

Plateforme basée Web partageant les résultats des analyses et permettant de les exploiter.

Il permet la génération de rapports avancés et la comparaison des statistiques historiques et actuelles afin de déterminer s'il y a eu amélioration ou dégradation des données.

indicators (indicateurs)

Résultats des implémentations d'analyses complexes relative à la mise en correspondance des données et d'autres opérations sur les données.

Ils appartiennent à une catégorie ou à l'autre : "indicateurs système" ou "indicateurs personnalisés".

patterns (modèles)

Ensembles de chaînes de caractères par rapport auxquels vous pouvez définir le contenu, la structure et la qualité de données hautement complexes.

Ils appartiennent à une catégorie ou à l'autre : "expressions régulières" ou "modèles SQL".

pattern frequency statistics (statistiques de fréquence des modèles)

Indicateur déterminant le modèle le plus fréquent et le moins fréquent dans un jeu de données.

phone number statistics (statistiques de numéros de téléphone)

Indicateur comptant le nombre de numéros de téléphone. Il retourne le compte pour chaque format de numéro de téléphone. Il valide les formats de numéros téléphone à l'aide de la bibliothèque org.talend.libraries.google.libphonumber.

regular expressions (regex)

Modèles prédéfinis que vous pouvez utiliser pour rechercher et manipuler des données dans des bases de données.

Rapports

Un document que vous pouvez générer sur une ou plusieurs analyses depuis la perspective Profiling du Studio pour fournir les statistiques collectées par les analyses. Vous pouvez générer des rapports en différents formats.

simple statistics (statistiques simples)

Cet indicateur fournit des statistiques simples concernant le nombre d'enregistrements appartenant à certaines catégories, notamment le nombre de lignes, le nombre de valeurs null, le nombre de valeurs distinctes et unique, le nombre de doublons ou le nombre de champs vides (blancs).

soundex frequency statistics (statistiques de fréquence Soundex)

Cet indicateur utilise l'algorithme Soundex construit dans le SGBD. Il indexe les enregistrements par son. Ainsi, les enregistrements ayant la même prononciation (prononciation anglaise uniquement) sont encodés dans la même représentation afin de pouvoir être mis en correspondance, même s'il y a des différences mineures dans l'orthographe.

SQL patterns (modèles SQL)

Modèles personnalisés que vous pouvez utiliser dans des requêtes SQL. Ces modèles contiennent généralement le symbole pourcentage (%).

summary statistics (résumé statistique)

Cet indicateur effectue des analyses statistiques sur des données numériques, calculant notamment de mesures de XXX of location measures comme la médiane et la moyenne, le calcul des dispersions statistiques comme l'écart et l'écart interquartile.

text statistics (statistiques de texte)

Cet indicateur analyse les caractéristiques des champs textuels dans les colonnes, notamment les longueurs minimale, maximale et moyenne.