Création d'une analyse de table prédéfinie - 6.2

Talend Real-time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.2
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Dans le studio, vous pouvez utiliser l'approche sémantique afin de créer des analyses de tables préconfigurées avec des indicateurs et des modèles correspondants à vos données.

Prérequis :

  • Vous devez avoir installé Talend Log Server à l'aide de l'Installer.

  • Vous devez avoir créé une connexion à une source de données dans le Studio, connexion à une base de données, un fichier délimité ou Hive.

Démarrer le serveur et configurer les préférences

  1. Démarrez le serveur elasticsearch installé par l'Installer et stocké dans le dossier logserv du répertoire racine.

  2. Dans le menu du studio, sélectionnez Window > Preferences pour afficher la fenêtre [Preferences].

  3. Commencez à saisir Semantic dans le champ de filtre.

    La vue Semantic-aware Analysis s'affiche.

    Les informations de connexion au référentiel sémantique sur le serveur sont configurées par défaut selon votre installation.

    Si vous apportez des modifications au port ou au nom du cluster, vous devez les modifier dans cette vue.

  4. Cliquez sur le bouton Check Connection afin de vérifier que la connexion est établie avant de cliquer sur OK.

    Un message d'erreur s'affiche si les informations de connexion au serveur de log ne sont pas correctement configurées ou si le serveur de log ne fonctionne pas.

Explorer les catégories sémantiques des colonnes de données

L'exemple ci-dessous utilise une table d'une base de données pour contenir les informations clients.

  1. Dans la vue DQ Repository, développez le nœud Metadata et parcourez l'arborescence jusqu'à la table que vous souhaitez analyser.

  2. Cliquez-droit sur la table et sélectionnez Semantic-aware Analysis ou cliquez-droit sur un ensemble de colonnes dans la table et sélectionnez Semantic-aware Analysis.

    L'assistant sémantique s'ouvre, liste toutes les colonnes de la table ou liste les ensembles de colonnes sélectionnés, si votre analyse est une analyse de table et d'un ensemble de colonnes, respectivement. La ligne Category dans l'assistant assigne des catégories sémantiques aux colonnes rapprochées.

  3. Dans la zone Sampling Options :

    Sélectionnez/Cliquez sur

    Pour...

    - First N Rows

    - Reservoir Sampling

    - lister dans l'aperçu des données les N premiers enregistrements de données des colonnes sélectionnées. Vous pouvez paramétrer le nombre d'enregistrements dans le champ Number of rows.

    - lister dans l'aperçu des données N enregistrements aléatoires des colonnes sélectionnées. Vous pouvez paramétrer le nombre d'enregistrements dans le champ Number of rows.

    Threshold for category discovery

    configurer le seuil minimal pour les correspondances à afficher dans les listes Category des colonnes analysées.

    Ce seuil filtre les catégories les moins probables des colonnes analysées.

    Refresh

    rafraîchir l'aperçu des données après une modification dans la configuration.

  4. Dans le champ Category de chaque colonne mise en correspondance, vous pouvez :

    • sélectionner une catégorie de données dans la liste Category convenant à la colonne, ou

    • saisir un nom significatif pour la colonne représentant le mieux le contenu.

    Pour ce faire, cliquez deux fois dans ce champ, saisissez le nom et appuyez sur la touche Entrée de votre clavier pour sauvegarder les modifications. Les noms que vous saisissez s'affichent dans une couleur différente. Cette étape stocke en local les catégories et les noms sémantiques des colonnes. Si aucun nom sémantique n'est trouvé, les catégories sont quand même stockées.

    Cela n'est pas obligatoire mais vous permet de mieux rapprocher les métadonnées de la table des concepts stockés dans le référentiel d'ontologies du serveur de log.

    Les pourcentages des catégories proposées sont calculés par l'analyse des données dans les colonnes par rapport aux méthodes suivantes : regex, data dictionary et keyword dictionary. Les index de dictionnaire et les catégories regex sont intégrés au studio et sont utilisés pour déterminer la catégorie à laquelle appartiennent les données. Pour plus d'informations concernant les index de dictionnaire et les catégories regex, consultez l'article de la base de connaissances Indexes and regex categories used in the Semantic-aware analysis (en anglais).

  5. Cliquez sur Next pour ouvrir une page de l'assistant, dans laquelle vous pouvez voir les résultats du rapprochement des métadonnées des colonnes ainsi que les concepts sémantiques et les concepts dans le référentiel d'ontologies.

Mettre en correspondance les métadonnées des colonnes ainsi que les catégories sémantiques et les concepts dans le référentiel d'ontologies

Après avoir exploré les catégories sémantiques des données, comme expliqué dans Explorer les catégories sémantiques des colonnes de données, l'assistant s'ouvre sur un diagramme représentant les résultats du rapprochement des métadonnées des colonnes ainsi que des nouveaux concepts sémantiques et des concepts dans le référentiel d'ontologies.

Une ligne Semantics est ajoutée à la table. Elle correspond aux attributs trouvés dans le référentiel d'ontologies en tant que résultats de l'opération de mise en correspondance.

Les concepts les plus appropriés sont sélectionnés par défaut et toutes les colonnes associées au concept sont surlignées dans la table.

  1. Si nécessaire, sélectionnez un autre concept dans le diagramme.

    L'analyse générée sera basée sur cette sélection.

  2. Cliquez sur Next pour ouvrir une nouvelle page de l'assistant, dans laquelle vous pouvez configurer avec quels concepts et attributs enrichir le référentiel d'ontologies.

Enrichir le référentiel d'ontologies

Cette page de l'assistant affiche le concept sélectionné et ses attributs correspondants. Une nouvelle ligne est ajoutée à la table : Enrich Action.

Ce que vous définissez sur les colonnes dans cette page est utilisé pour enrichir le référentiel d'ontologies sur le serveur de log.

  1. Dans la liste Semantic de chaque colonne, sélectionnez un nouvel attribut.

    Définir des concepts et des attributs pour les colonnes est important pour le choix des indicateurs à utiliser sur les colonnes, même si vous n'enrichissez pas le référentiels d'ontologies avec.

  2. Dans la liste Action de chaque colonne, choisissez si vous souhaitez ajouter les nouveaux attributs au référentiel sur le serveur de log ou comment les ajouter.

    Les concepts dans le référentiel seront enrichis avec des synonymes et de nouveaux attributs.

    La liste sémantique peut être différente d'une colonne à l'autre selon le contenu des champs Category et Semantics.

  3. Cliquez sur Next et, dans la nouvelle fenêtre, vérifiez la colonne Validated status pour vous assurer que les actions que vous souhaitez effectuer sur le référentiel d'ontologies sont valides.

    Le statut est représenté comme suit :

    • Lorsque le concept à ajouter peut être rapproché des concepts de l'Ontologie mais n'existe pas dans le référentiel d'ontologies, le statut est valide.

    • Lorsque le concept à ajouter ne peut être rapproché des concepts de l'Ontologie, le statut est invalide et une icône d'avertissement s'affiche.

    • Lorsque le concept à ajouter peut être rapproché des concepts de l'Ontologie et existe déjà dans le référentiel d'ontologies, le statut est invalide et une icône rouge d'avertissement s'affiche.

    Vous pouvez toujours modifier votre sélection dans la fenêtre précédente ou décocher la case de l'action à annuler.

    Cliquez sur Run enrichment pour enrichir le référentiel d'ontologies avec les attributs sélectionnés.

    La vue des résultats au bas de l'assistant affiche un message pour confirmer ce qui a été ajouté au référentiel d'ontologies.

  4. Cliquez sur :

    • Finish pour créer l'analyse de table avec un nom par défaut.

    • Next pour ouvrir une page de l'assistant dans laquelle vous pouvez configurer les métadonnées de l'analyse.

Définir l'analyse de table recommandée

Dans la page des métadonnées de l'analyse, dans l'assistant :

  1. Configurez les métadonnées de l'analyse (nom, objectif et description) et cliquez sur Finish.

    L'éditeur d'analyse s'ouvre avec les indicateurs recommandés déjà assignés aux colonnes.

  2. Si nécessaire, cliquez sur Select Indicators pour ouvrir une boîte de dialogue et modifier les indicateurs assignés aux colonnes.

    Vous pouvez également ajouter des modèles aux colonnes dans cette boîte de dialogue.

  3. Exécutez l'analyse.

    Les résultats de l'analyse sont affichés dans le studio et également enregistrés dans le référentiel d'ontologies sur le serveur de log.

    Le référentiel d'ontologies est enrichi avec les informations concernant les indicateurs utilisés sur chaque type de colonne. Il est également enrichi avec les résultats, comme les valeurs minimale et maximale utilisées sur les indicateurs, ainsi que les indicateurs utilisés sur les modèles.

    Les résultats, comme les valeurs minimales et maximales sont important afin de définir un intervalle sur les colonnes numériques. Cet intervalle est mis à jour dans le référentiel d'ontologies, selon les règles suivantes :

    • Si vous n'avez pas défini de seuil sur les indicateurs minimum et maximum dans le studio et que la valeur de l'indicateur minimum/maximum est inférieure/supérieure à l'attribut minimum/maximum du référentiel d'ontologies, alors la valeur minimum/maximum de l'attribut est lise à jour avec la nouvelle valeur de l'indicateur.

    • Si vous avez défini des seuils sur l'indicateur dans le studio, alors le seuil minimum ou maximum met à jour la valeur minimum ou maximum dans le référentiel d'ontologies à chaque exécution de l'analyse.

    Lorsque vous essayez de créer une analyse de table avec des colonnes similaires, tous les indicateurs et modèles enregistrés seront par défaut utilisés sur les colonnes.

    Pour plus d'informations concernant les index de dictionnaire et les catégories regex, consultez l'article de la base de connaissances Indexes and regex categories used in the Semantic-aware analysis (en anglais).

    Pour plus d'informations concernant le contenu du référentiel d'ontologies, consultez l'article de la base de connaissances Accessing semantic concepts stored in the Ontology repository (en anglais).