Avant de commencer à analyser des données dans une base de données spécifique, vous devez d'abord configurer cette connexion. Dans la perspective Profiling du studio, vous pouvez créer une connexion dans le Système de Gestion de Base de Données (SGBD) et d'afficher le contenu de la base de données.
Les bases de données que vous pouvez analyser à partir du Studio comprennent Hive et Amazon Redshift. Pour plus d'informations concernant les bases de données que vous pouvez profiler, consultez Les bases de données supportées dans la perspective Profiling et la section concernant les bases de données supportées dans le Guide d'installation Talend.
Les connexions à différentes bases de données sont reflétées par des niveaux d'arborescence différents ainsi que différentes icônes, dans la vue DQ Repository, car la structure logique et physique des données diffère d'une base de données relationnelle à une autre. Le plus haut niveau de structure, "Catalog", suivi de "Schema" puis de "Table" n'est pas applicable à tous les types de bases de données. Pour plus d'informations, consultez Catalogues et schémas dans les systèmes de bases de données.
Prérequis : Vous avez sélectionné la perspective Profiling dans le studio.
Pour créer une connexion à une base de données, procédez comme suit :
Dans la vue DQ Repository, développez le nœud Metadata. Cliquez-droit sur DB Connections et sélectionnez Create connection.
L'assistant [Database Connection] s'ouvre.
Dans le champ Name, saisissez un nom pour cette nouvelle connexion à une base de données.
N'utilisez pas d'espace dans le nom de la connexion.
Note
Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :
"~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".
Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.
Si nécessaire, définissez les métadonnées de la connexion : Purpose, Description et Author (objectif, description et nom de l'auteur) dans les champs correspondants et cliquez sur Next pour passer à l'étape suivante.
Dans la liste DB Type, sélectionnez la base de données à laquelle vous connecter, MySQL, par exemple. Un message d'avertissement s'ouvre si le type de la base de données sélectionné ne peut être utilisé dans la perspective Profiling.
Pour plus d'informations concernant les bases de données supportées, consultez le Guide d'installation Talend.
Note
Si vous choisissez de vous connecter à une base de données non supportée par le studio (utilisant les méthodes ODBC ou JDBC), il est recommandé d'utiliser le moteur Java pour exécuter les analyses de colonnes créées dans la base de données sélectionnée. Pour plus d'informations concernant les analyses de colonnes, consultez Définir les colonnes à analyser et configurer les indicateurs et pour plus d'informations sur le moteur Java, consultez Utiliser le moteur Java ou SQL.
Dans le champ DB Version, sélectionnez la version de la base de données à laquelle vous créez la connexion.
Saisissez l'identifiant, le mot de passe, le serveur et le port dans les champs correspondants.
Si nécessaire, cliquez sur le bouton
pour afficher tous les champs de la connexion sans avoir à faire défiler l'assistant.
Dans le champ Database, saisissez le nom de la base de données à laquelle vous connecter. Si vous devez vous connecter à tous les catalogues d'une connexion, si la base de données vous le permet, laissez ce champ vide.
Cliquez sur le bouton Check pour vérifier que la connexion est établie avec succès.
Si vous n'avez pas encore installé le pilote de la base de données (fichier .jar) nécessaire à l'utilisation de la base de données, un assistant vous demande d'installer le module tiers concerné. Cliquez sur Download and Install et fermez l'assistant.
Pour plus d'informations concernant l'identification et l'installation des modules externes, consultez le Guide d'installation Talend.
Pour plus d'informations concernant la vue Module, consultez Afficher la vue Module.
Si nécessaire, exportez votre connexion en tant que contexte et la centraliser sous le nœud Context dans la perspective Integration de votre Studio. Cela vous permet de réutiliser le contexte dans les analyses de qualité de données utilisant la connexion courante. Vous pouvez également créer différents paramètres de contexte pour la même connexion et choisir d'exécuter une analyse dans un contexte spécifique. Pour plus d'informations, consultez Utilisation des variables de contexte pour se connecter aux sources de données.
Cliquez sur Finish pour fermer l'assistant [Database Connection].
Un dossier pour la connexion à la base de données MySQL s'affiche sous le nœud DB Connection de la vue DQ Repository et sous le nœud Metadata dans la perspective Integration. L'éditeur de connexion s'ouvre avec les métadonnées définies dans le studio.
Une fois que vous avez créé la connexion, vous pouvez ouvrir, dans le studio, un aperçu des données dans une table d'une base de données spécifique. Pour plus d'informations, consultez Obtenir un aperçu des données dans l'éditeur SQL.
Dans l'éditeur de connexion, vous pouvez :
Cliquez sur Connection information pour afficher les paramètres de connexion à la base de données correspondante.
Cliquez sur le bouton Check pour vérifier le statut de votre connexion.
Cliquez sur le bouton Edit... pour ouvrir l'assistant de connexion et modifier toute information de connexion nécessaire.
Pour plus d'informations concernant la connexion à un fichier, consultez Se connecter à un fichier.
Vous pouvez créer une connexion à un catalogue ou un schéma de base de données directement depuis une connexion à une base de données.
Prérequis : Au moins une connexion à une base de données doit avoir été configurée dans la perspective Profiling de votre studio. Pour plus d'informations, consultez Se connecter à une base de données.
Dans la vue DQ Repository, développez les nœuds Metadata > DB Connections et parcourez jusqu'au catalogue ou schéma sur lequel créer la connexion.
Cliquez-droit sur un catalogue ou un schéma et sélectionnez Create a new connection.
Un message de confirmation s'affiche.
Cliquez sur OK.
Une nouvelle connexion nommée d'après la connexion et le catalogue sélectionnés est créée sous le nœud DB Connections.
L'assistant de connexion à la base de données dans le studio liste les bases de données auxquelles vous pouvez créer une connexion, sur lesquelles effectuer des processus de profiling et d'intégration .
Quelques bases de données dans la liste sont supportées pour le profiling de données. Pour plus d'informations, consultez Les bases de données supportées dans la perspective Profiling et la section concernant les bases de données supportées dans le Guide d'installation Talend.
Vous pouvez toujours utiliser le studio pour vous connecter une base de données "non supportée". Pour ce faire, sélectionnez General JDBC comme type de base de données dans l'assistant de connexion et renseignez les paramètres de connexion. Pour plus d'informations, consultez Centraliser des métadonnées JDBC.
Après avoir créé la connexion à une base de données personnalisée, vous pouvez profiler et monitorer des données dans cette base de données en utilisant différentes analyses et différents indicateurs, comme avec les bases de données supportées. Vous pouvez vouloir modifier, dans l'éditeur Indicator Settings, le modèle de requête SQL pour certains indicateurs, comme l'indicateur de regex dans lequel chaque base de données a une fonction différente à appeler. Pour plus d'informations, consultez Modifier un indicateur système et Modifier un indicateur personnalisé.
Note
Si vous rencontrez des problèmes pour profiler une base de données personnalisée même en utilisant une connexion JDBC, c'est peut-être parce que certaines fonctions JDBC ne sont pas implémentées par la bibliothèque du pilote JDBC. Reportez le problème ou demandez du support sur le site Web Talend Community :
Vous pouvez configurer une connexion à une base de données soit dans la perspective Profiling, soit dans la perspective Integration. La connexion à la base de données que vous créez est listée sous le nœud Metadata dans les deux perspectives. Vous pouvez utiliser cette connexion dans vos analyses de qualité de données et dans vos Jobs d'intégration de données.
Cependant, moins de bases de données sont supportées pour le profiling de données que pour l'intégration de données, c'est pourquoi la liste des bases de données est bien plus longue dans la perspective Integration. Dans la perspective Profiling, les connexions créées à des bases de données non supportées sont libellés comme Unsupported (non supporté).
Pour plus d'informations concernant les bases de données supportées pour le profiling de données, consultez la section relative aux bases de données supportées dans le Guide d'installation Talend.
Teradata:
Si vous choisissez de vous connecter à la base de données Teradata, sélectionnez Yes pour l'option USE SQL Mode, afin de permettre au studio les requêtes SQL pour récupérer les métadonnées. Le pilote JDBC n'est pas recommandé avec cette base de données, pour cause de mauvais performances possible.
Dans la base de données Teradata, la fonction d'expressions régulières est installée par défaut à partir de la version 14. Si vous souhaitez utiliser les expressions régulières avec une version plus ancienne de la base de données, vous devez installer une fonction personnalisée dans Teradata et ajouter la définition de l'indicateur pour Teradata dans le studio. Pour plus d'informations concernant l'utilisation des expressions régulières dans Teradata, consultez la documentation sur Talend Help Center (https://help.talend.com).
Netezza:
La base de données Netezza ne supporte pas les expressions régulières. Si vous souhaitez utiliser les expressions régulières avec cette base de données, vous devez :
Installer le package SQL Extensions Toolkit dans un système Netezza. Utilisez la fonction regex_like fournie dans le Toolkit comme documenté dans la page http://pic.dhe.ibm.com/infocenter/ntz/v7r0m3/topic/com.ibm.nz.sqltk.doc/r_sqlext_regexp_like.html (en anglais).
Ajouter la définition de l'indicateur pour Netezza dans le dossier Pattern Matching du studio, sous Libraries > Indicators > System Indicators.
Le modèle de requête à définir pour Netezza se présente comme suit :
SELECT COUNT(CASE WHEN REGEXP_LIKE(<%=COLUMN_NAMES%>,<%=PATTERN_EXPR%>) THEN 1 END), COUNT FROM <%=TABLE_NAME%> <%=WHERE_CLAUSE%>
. Pour une procédure détaillée concernant l'ajout d'une définition d'indicateur pour une base de données spécifique, consultez Définir un modèle de requête pour une base de données spécifique.
Hive:
Si vous choisissez de vous connectez à une base de données Hive, vous pouvez créer et exécuter différentes analyses, comme avec les autres types de bases de données.
Dans l'assistant, vous devez sélectionnez, dans la liste Distribution la plateforme hébergeant Hive. Vous devez également configurer la version et le mode de Hive. Pour plus d'informations, consultez Gestion des métadonnées dans l'intégration de données et le site Web http://hadoop.apache.org/ (en anglais).
- Si vous décidez de modifier le nom d'utilisateur en mode embarqué d'une connexion Hive, vous devez redémarrer le studio avant de pouvoir exécuter les analyses de profiling utilisant cette connexion. Pour plus d'informations concernant l'utilisation des informations d'authentification à Hive, consultez la documentation sur https://help.talend.com).
(- Si la distribution Hadoop à utiliser est Hortonworks Data Platform V1.2 ou Hortonworks Data Platform V1.3, vous devez configurer des allocations de mémoire spécifiques pour les calculs Map et Reduce à effectuer par le système Hadoop. Dans la deuxième étape de l'assistant de connexion :
Cliquez sur le bouton à côté de Hadoop Properties et, dans la boîte de dialogue, cliquez deux fois sur le bouton [+] pour ajouter deux lignes.
Saisissez le nom des paramètres, respectivement
mapred.job.map.memory.mb
etmapred.job.reduce.memory.mb
.Configurez la valeur de chaque paramètre à 1000, la valeur par défaut.
Cette valeur est appropriée pour exécuter les calculs.
Un type d'analyse et quelques indicateurs et fonctions ne sont pas supportées pour Hive. Consultez le tableau ci-dessous pour plus d'informations :
Indicateurs non supportés | Fonctions non supportées | Analyses non supportées |
---|---|---|
Avec le moteur SQL : -Soundex Low Frequency. -Pattern (Low) Frequency. -Upper Quartile et Lower Quartile. -Median. -indicateurs de fréquence de date. |
-Le menu contextuel View rows des analyses de colonnes avec des indicateurs unique, de doublons et tous les indicateurs de texte. Pour plus d'informations concernant le menu View rows, consultez Voir et exporter des données analysées. -Le menu contextuel View match rows des analyses de colonnes avec des indicateurs unique, de doublons et tous les indicateurs de texte. Pour plus d'informations concernant la vue View match rows, consultez Comparaison de colonnes identiques dans différentes tables. -Tous les menus contextuels sur les résultats d'analyse des analyses de dépendance fonctionnelle. Pour plus d'informations concernant cette analyse, consultez Détecter des anomalies dans des colonnes (Analyse de dépendance fonctionnelle). |
-La seule analyse non supportée par Hive est Time Correlation Analysis, comme le type de données Date n'existe pas dans Hive. Pour plus d'informations concernant ce type d'analyse, consultez Analyse de corrélation temporelle. |
Les options de clic-droit sur les résultats d'analyse générant des Jobs pour valider, standardiser ou dédoublonner des données ne sont pas supportés pour Hive. Pour plus d'informations concernant ces Jobs, consultez Nettoyage des données.
Hive et HBase :
Lorsque vous choisissez de vous connecter à une base de données Hive ou HBase pour créer et exécuter des analyses différentes, dans l'assistant de connexion, vous devez, comme expliqué ci-dessus, sélectionner dans la liste Distribution la plateforme hébergeant Hive ou HBase.
Si la distribution Hadoop à utiliser est Hortonworks Data Platform V2.0 (YARN), configurez les paramètres suivants dans la table Hadoop Properties :
Le paramètre est :
yarn.application.classpath
La valeur est :
/etc/hadoop/conf,/usr/lib/hadoop/,/usr/lib/hadoop/lib/,/usr/lib/hadoop-hdfs/,/usr/lib/hadoop-hdfs/lib/,/usr/lib/hadoop-yarn/,/usr/lib/hadoop-yarn/lib/,/usr/lib/hadoop-mapreduce/,/usr/lib/hadoop-mapreduce/lib/
La structure d'une base de données définit comment les objets sont organisés dans la base de données. Différentes structures de stockage de données sont utilisées pour stocker des objets dans des bases de données. Par exemple, le plus haut niveau de structure (par exemple "Catalog" puis "Schema" suivi de "Table") ne s'applique pas à tous les types de bases de données.
Le tableau ci-dessous décrit la structure de certaines bases de données en termes de catalogues et schémas :
Nom de la base de données | Version | Catalog | Schema |
---|---|---|---|
Oracle | non | oui | |
MySQL | oui | non | |
SQLServer |
2000/2005/2008 | oui | oui |
DB2 | non | oui | |
DB2 ZOS | non | oui | |
Sybase | oui | oui | |
Informix | oui | oui | |
PointBase | non | oui | |
PostgreSQL | oui | oui | |
AS/400 |
V5R4 | oui | oui |
Ingres | non | oui | |
Teradata | non | oui | |
Netezza | oui | oui | |
SQLite | non | non |