Se connecter à une base de données

Talend Real-time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.4
EnrichProdName
Talend Real-Time Big Data Platform
task
Qualité et préparation de données
Création et développement
EnrichPlatform
Studio Talend

Avant de commencer à analyser des données dans une base de données spécifique, vous devez d'abord configurer cette connexion. Dans la perspective Profiling du studio, vous pouvez créer une connexion dans le Système de Gestion de Base de Données (SGBD) et d'afficher le contenu de la base de données.

Les bases de données que vous pouvez analyser à partir du Studio comprennent Hive et Amazon Redshift. Pour plus d'informations concernant les bases de données que vous pouvez profiler, consultez Les bases de données supportées dans la perspective Profiling et la section concernant les bases de données supportées dans le Guide d'installation Talend.

Les connexions à différentes bases de données sont reflétées par des niveaux d'arborescence différents ainsi que différentes icônes, dans la vue DQ Repository, car la structure logique et physique des données diffère d'une base de données relationnelle à une autre. Le plus haut niveau de structure, "Catalog", suivi de "Schema" puis de "Table" n'est pas applicable à tous les types de bases de données. Pour plus d'informations, consultez Catalogues et schémas dans les systèmes de bases de données.

Créer une connexion

Prérequis : Vous avez sélectionné la perspective Profiling dans le studio.

Pour créer une connexion à une base de données, procédez comme suit :

  1. Dans la vue DQ Repository, développez le nœud Metadata. Cliquez-droit sur DB Connections et sélectionnez Create connection.

    L'assistant [Database Connection] s'ouvre.

  2. Dans le champ Name, saisissez un nom pour cette nouvelle connexion à une base de données.

    N'utilisez pas d'espace dans le nom de la connexion.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  3. Si nécessaire, définissez les métadonnées de la connexion : Purpose, Description et Author (objectif, description et nom de l'auteur) dans les champs correspondants et cliquez sur Next pour passer à l'étape suivante.

  4. Dans la liste DB Type, sélectionnez la base de données à laquelle vous connecter, MySQL, par exemple. Un message d'avertissement s'ouvre si le type de la base de données sélectionné ne peut être utilisé dans la perspective Profiling.

    Pour plus d'informations concernant les bases de données supportées, consultez le Guide d'installation Talend.

    Note

    Si vous choisissez de vous connecter à une base de données non supportée par le studio (utilisant les méthodes ODBC ou JDBC), il est recommandé d'utiliser le moteur Java pour exécuter les analyses de colonnes créées dans la base de données sélectionnée. Pour plus d'informations concernant les analyses de colonnes, consultez Définir les colonnes à analyser et configurer les indicateurs et pour plus d'informations sur le moteur Java, consultez Utiliser le moteur Java ou SQL.

  5. Dans le champ DB Version, sélectionnez la version de la base de données à laquelle vous créez la connexion.

  6. Saisissez l'identifiant, le mot de passe, le serveur et le port dans les champs correspondants.

    Si nécessaire, cliquez sur le bouton pour afficher tous les champs de la connexion sans avoir à faire défiler l'assistant.

  7. Dans le champ Database, saisissez le nom de la base de données à laquelle vous connecter. Si vous devez vous connecter à tous les catalogues d'une connexion, si la base de données vous le permet, laissez ce champ vide.

  8. Cliquez sur le bouton Check pour vérifier que la connexion est établie avec succès.

    Si vous n'avez pas encore installé le pilote de la base de données (fichier .jar) nécessaire à l'utilisation de la base de données, un assistant vous demande d'installer le module tiers concerné. Cliquez sur Download and Install et fermez l'assistant.

    Pour plus d'informations concernant l'identification et l'installation des modules externes, consultez le Guide d'installation Talend.

    Pour plus d'informations concernant la vue Module, consultez Afficher la vue Module.

  9. Si nécessaire, exportez votre connexion en tant que contexte et la centraliser sous le nœud Context dans la perspective Integration de votre Studio. Cela vous permet de réutiliser le contexte dans les analyses de qualité de données utilisant la connexion courante. Vous pouvez également créer différents paramètres de contexte pour la même connexion et choisir d'exécuter une analyse dans un contexte spécifique. Pour plus d'informations, consultez Utilisation des variables de contexte pour se connecter aux sources de données.

  10. Cliquez sur Finish pour fermer l'assistant [Database Connection].

    Un dossier pour la connexion à la base de données MySQL s'affiche sous le nœud DB Connection de la vue DQ Repository et sous le nœud Metadata dans la perspective Integration. L'éditeur de connexion s'ouvre avec les métadonnées définies dans le studio.

Une fois que vous avez créé la connexion, vous pouvez ouvrir, dans le studio, un aperçu des données dans une table d'une base de données spécifique. Pour plus d'informations, consultez Obtenir un aperçu des données dans l'éditeur SQL.

Dans l'éditeur de connexion, vous pouvez :

  • Cliquez sur Connection information pour afficher les paramètres de connexion à la base de données correspondante.

  • Cliquez sur le bouton Check pour vérifier le statut de votre connexion.

  • Cliquez sur le bouton Edit... pour ouvrir l'assistant de connexion et modifier toute information de connexion nécessaire.

Pour plus d'informations concernant la connexion à un fichier, consultez Se connecter à un fichier.

Créer une connexion depuis un catalogue ou un schéma

Vous pouvez créer une connexion à un catalogue ou un schéma de base de données directement depuis une connexion à une base de données.

Prérequis : Au moins une connexion à une base de données doit avoir été configurée dans la perspective Profiling de votre studio. Pour plus d'informations, consultez Se connecter à une base de données.

  1. Dans la vue DQ Repository, développez les nœuds Metadata > DB Connections et parcourez jusqu'au catalogue ou schéma sur lequel créer la connexion.

  2. Cliquez-droit sur un catalogue ou un schéma et sélectionnez Create a new connection.

    Un message de confirmation s'affiche.

  3. Cliquez sur OK.

    Une nouvelle connexion nommée d'après la connexion et le catalogue sélectionnés est créée sous le nœud DB Connections.

Créer une connexion pour une base de données personnalisée

L'assistant de connexion à la base de données dans le studio liste les bases de données auxquelles vous pouvez créer une connexion, sur lesquelles effectuer des processus de profiling et d'intégration .

Quelques bases de données dans la liste sont supportées pour le profiling de données. Pour plus d'informations, consultez Les bases de données supportées dans la perspective Profiling et la section concernant les bases de données supportées dans le Guide d'installation Talend.

Vous pouvez toujours utiliser le studio pour vous connecter une base de données "non supportée". Pour ce faire, sélectionnez General JDBC comme type de base de données dans l'assistant de connexion et renseignez les paramètres de connexion. Pour plus d'informations, consultez Centraliser des métadonnées JDBC.

Après avoir créé la connexion à une base de données personnalisée, vous pouvez profiler et monitorer des données dans cette base de données en utilisant différentes analyses et différents indicateurs, comme avec les bases de données supportées. Vous pouvez vouloir modifier, dans l'éditeur Indicator Settings, le modèle de requête SQL pour certains indicateurs, comme l'indicateur de regex dans lequel chaque base de données a une fonction différente à appeler. Pour plus d'informations, consultez Modifier un indicateur système et Modifier un indicateur personnalisé.

Note

Si vous rencontrez des problèmes pour profiler une base de données personnalisée même en utilisant une connexion JDBC, c'est peut-être parce que certaines fonctions JDBC ne sont pas implémentées par la bibliothèque du pilote JDBC. Reportez le problème ou demandez du support sur le site Web Talend Community :

https://community.talend.com/

Les bases de données supportées dans la perspective Profiling

Vous pouvez configurer une connexion à une base de données soit dans la perspective Profiling, soit dans la perspective Integration. La connexion à la base de données que vous créez est listée sous le nœud Metadata dans les deux perspectives. Vous pouvez utiliser cette connexion dans vos analyses de qualité de données et dans vos Jobs d'intégration de données.

Cependant, moins de bases de données sont supportées pour le profiling de données que pour l'intégration de données, c'est pourquoi la liste des bases de données est bien plus longue dans la perspective Integration. Dans la perspective Profiling, les connexions créées à des bases de données non supportées sont libellés comme Unsupported (non supporté).

Pour plus d'informations concernant les bases de données supportées pour le profiling de données, consultez la section relative aux bases de données supportées dans le Guide d'installation Talend.

Ce que vous devez savoir à propos de certaines bases de données

Teradata:

Si vous choisissez de vous connecter à la base de données Teradata, sélectionnez Yes pour l'option USE SQL Mode, afin de permettre au studio les requêtes SQL pour récupérer les métadonnées. Le pilote JDBC n'est pas recommandé avec cette base de données, pour cause de mauvais performances possible.

Dans la base de données Teradata, la fonction d'expressions régulières est installée par défaut à partir de la version 14. Si vous souhaitez utiliser les expressions régulières avec une version plus ancienne de la base de données, vous devez installer une fonction personnalisée dans Teradata et ajouter la définition de l'indicateur pour Teradata dans le studio. Pour plus d'informations concernant l'utilisation des expressions régulières dans Teradata, consultez la documentation sur Talend Help Center (https://help.talend.com).

Netezza:

La base de données Netezza ne supporte pas les expressions régulières. Si vous souhaitez utiliser les expressions régulières avec cette base de données, vous devez :

Hive:

Si vous choisissez de vous connectez à une base de données Hive, vous pouvez créer et exécuter différentes analyses, comme avec les autres types de bases de données.

Dans l'assistant, vous devez sélectionnez, dans la liste Distribution la plateforme hébergeant Hive. Vous devez également configurer la version et le mode de Hive. Pour plus d'informations, consultez Gestion des métadonnées dans l'intégration de données et le site Web http://hadoop.apache.org/ (en anglais).

- Si vous décidez de modifier le nom d'utilisateur en mode embarqué d'une connexion Hive, vous devez redémarrer le studio avant de pouvoir exécuter les analyses de profiling utilisant cette connexion. Pour plus d'informations concernant l'utilisation des informations d'authentification à Hive, consultez la documentation sur Talend Help Center (https://help.talend.com).

- Si la distribution Hadoop à utiliser est Hortonworks Data Platform V1.2 ou Hortonworks Data Platform V1.3, vous devez configurer des allocations de mémoire spécifiques pour les calculs Map et Reduce à effectuer par le système Hadoop. Dans la deuxième étape de l'assistant de connexion :

  1. Cliquez sur le bouton à côté de Hadoop Properties et, dans la boîte de dialogue, cliquez deux fois sur le bouton [+] pour ajouter deux lignes.

  2. Saisissez le nom des paramètres, respectivement mapred.job.map.memory.mb et mapred.job.reduce.memory.mb.

  3. Configurez la valeur de chaque paramètre à 1000, la valeur par défaut.

    Cette valeur est appropriée pour exécuter les calculs.

Un type d'analyse et quelques indicateurs et fonctions ne sont pas supportées pour Hive. Consultez le tableau ci-dessous pour plus d'informations :

Indicateurs non supportés

Fonctions non supportéesAnalyses non supportées

Avec le moteur SQL :

-Soundex Low Frequency.

-Pattern (Low) Frequency.

-Upper Quartile et Lower Quartile.

-Median.

-indicateurs de fréquence de date.

-Le menu contextuel View rows des analyses de colonnes avec des indicateurs unique, de doublons et tous les indicateurs de texte.

Pour plus d'informations concernant le menu View rows, consultez Voir et exporter des données analysées.

-Le menu contextuel View match rows des analyses de colonnes avec des indicateurs unique, de doublons et tous les indicateurs de texte.

Pour plus d'informations concernant la vue View match rows, consultez Comparaison de colonnes identiques dans différentes tables.

-Tous les menus contextuels sur les résultats d'analyse des analyses de dépendance fonctionnelle.

Pour plus d'informations concernant cette analyse, consultez Détecter des anomalies dans des colonnes (Analyse de dépendance fonctionnelle).

-La seule analyse non supportée par Hive est Time Correlation Analysis, comme le type de données Date n'existe pas dans Hive. Pour plus d'informations concernant ce type d'analyse, consultez Analyse de corrélation temporelle.

Les options de clic-droit sur les résultats d'analyse générant des Jobs pour valider, standardiser ou dédoublonner des données ne sont pas supportés pour Hive. Pour plus d'informations concernant ces Jobs, consultez Nettoyage des données.

Hive et HBase :

Lorsque vous choisissez de vous connecter à une base de données Hive ou HBase pour créer et exécuter des analyses différentes, dans l'assistant de connexion, vous devez, comme expliqué ci-dessus, sélectionner dans la liste Distribution la plateforme hébergeant Hive ou HBase.

Si la distribution Hadoop à utiliser est Hortonworks Data Platform V2.0 (YARN), configurez les paramètres suivants dans la table Hadoop Properties :

  • Le paramètre est :

    yarn.application.classpath
  • La valeur est :

    /etc/hadoop/conf,/usr/lib/hadoop/,/usr/lib/hadoop/lib/,/usr/lib/hadoop-hdfs/,/usr/lib/hadoop-hdfs/lib/,/usr/lib/hadoop-yarn/,/usr/lib/hadoop-yarn/lib/,/usr/lib/hadoop-mapreduce/,/usr/lib/hadoop-mapreduce/lib/

Catalogues et schémas dans les systèmes de bases de données

La structure d'une base de données définit comment les objets sont organisés dans la base de données. Différentes structures de stockage de données sont utilisées pour stocker des objets dans des bases de données. Par exemple, le plus haut niveau de structure (par exemple "Catalog" puis "Schema" suivi de "Table") ne s'applique pas à tous les types de bases de données.

Le tableau ci-dessous décrit la structure de certaines bases de données en termes de catalogues et schémas :

Nom de la base de données

VersionCatalogSchema

Oracle

 nonoui

MySQL

 ouinon

SQLServer

2000/2005/2008

ouioui

DB2

 nonoui

DB2 ZOS

 nonoui

Sybase

 ouioui

Informix

 ouioui

PointBase

 nonoui

PostgreSQL

 ouioui

AS/400

V5R4

ouioui

Ingres

 nonoui

Teradata

 nonoui

Netezza

 ouioui

SQLite

 nonnon