Ce que vous devez savoir à propos de certaines bases de données - 7.1

Guide utilisateur de Talend Data Fabric Studio

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Fabric
task
Création et développement
EnrichPlatform
Studio Talend

MySQL

Lorsque vous créez une connexion à MySQL via JDBC, il n'est pas obligatoire d'inclure le nom de la base de données à l'URL JDBC. Que l'URL de connexion à la base de données spécifiée dans le champ JDBC URL contienne le nom de la base de données ou non, tous les catalogues sont récupérés.

Par exemple, si vous indiquez jdbc:mysql://192.168.33.41:3306/tbi?noDatetimeStringSync=truetbi est le nom de la base de données, ou bien jdbc:mysql://192.168.33.41:3306/?noDatetimeStringSync=true, tous les catalogues sont récupérés.

Afin de supporter les paires de substitution, vous devez modifier les propriétés suivantes dans le fichier de configuration du serveur MySQL :

[client]
default-character-set=utf8mb4
[mysql]
default-character-set=utf8mb4
character-set-server=utf8mb4

Microsoft SQL Server

Microsoft SQL Server 2012 et les versions supérieures sont supportées.

Si vous choisissez de vous connecter à la base de donnée Microsoft SQL Server via l'authentification Windows , vous pouvez sélectionnez Microsoft ou JTDS open source dans la liste Db Version.

Lorsque vous utilisez une base de données Microsoft SQL Server pour stocker les résultats des rapports, JTDS open source est le seul pilote supporté. Il est donc recommandé de sélectionner JTDS open source dans la liste Db Version afin d'éviter des conflits entre les pilotes Microsoft et jTDS.

Avant de créer une connexion à la base de données Microsoft SQL Server en utilisant le pilote jTDS :
  • Téléchargez le pilote jTDS en version 1.3.1 depuis la page http://jtds.sourceforge.net/.
  • Extrayez les fichiers de l'archive et copiez le fichier ntlmauth.dll présent dans x64/SSO ou x86/SSO, selon votre système d'exploitation.
  • Collez le fichier ntlmauth.dll dans le dossier %SYSTEMROOT%/system32

Si vous rencontrez l'erreur suivante : Échec de l'authentification unique : Native SSPI library not loaded, copiez le fichier ntlmauth.dll dans le dossier bin du JRE utilisé par le Studio Talend.

L'interclassement utilisé par la base de données de Microsoft SQL Server doit être sensible à la casse, sinon la génération du rapport pourrait échouer. Vous pourriez rencontrer des erreurs telles que java.sql.SQLException: Invalid column name 'rep_runtime'. Pour plus d'informations concernant les règles d'interclassement, consultez https://docs.microsoft.com/en-us/sql/t-sql/statements/windows-collation-name-transact-sql?view=sql-server-2017.

Teradata

Si vous choisissez de vous connecter à la base de données Teradata, sélectionnez Yes pour l'option USE SQL Mode, afin de permettre au Studio les requêtes SQL pour récupérer les métadonnées. Le pilote JDBC n'est pas recommandé avec cette base de données, pour cause de mauvais performances possible.

Dans la base de données Teradata, la fonction d'expressions régulières est installée par défaut à partir de la version 14. Si vous souhaitez utiliser les expressions régulières avec une version plus ancienne de la base de données, vous devez installer une fonction personnalisée dans Teradata et ajouter la définition de l'indicateur pour Teradata dans le Studio Talend. Pour plus d'informations concernant l'utilisation des expressions régulières avec Teradata, consultez la documentation sur Utilisation d'expressions régulières dans Teradata (https://help.talend.com).

Netezza

La base de données Netezza ne supporte pas les expressions régulières. Si vous souhaitez utiliser les expressions régulières avec cette base de données, vous devez :

Hive

Si vous choisissez de vous connectez à une base de données Hive, vous pouvez créer et exécuter différentes analyses, comme avec les autres types de bases de données.

Dans l'assistant, vous devez sélectionnez, dans la liste Distribution la plateforme hébergeant Hive. Vous devez également configurer la version et le mode de Hive. Pour plus d'informations, consultez Centraliser des métadonnées de base de données et le site Web http://hadoop.apache.org/ (en anglais).

Si vous décidez de modifier le nom d'utilisateur en mode embarqué d'une connexion Hive, vous devez redémarrer le Studio avant de pouvoir exécuter les analyses de profiling utilisant cette connexion. Pour plus d'informations concernant l'utilisation des informations d'authentification à Hive, consultez la documentation sur Fonctionnement des informations d'authentification à Hive en mode Embedded dans le Studio Talend (https://help.talend.com).

Si la distribution Hadoop à utiliser est Hortonworks Data Platform V1.2 ou Hortonworks Data Platform V1.3, vous devez configurer des allocations de mémoire spécifiques pour les calculs Map et Reduce à effectuer par le système Hadoop. Dans la deuxième étape de l'assistant de connexion :
  1. Cliquez sur le bouton à côté de Hadoop Properties et, dans la boîte de dialogue, cliquez deux fois sur le bouton [+] pour ajouter deux lignes à la table.
  2. Saisissez le nom des paramètres, respectivement mapred.job.map.memory.mb et mapred.job.reduce.memory.mb.
  3. Configurez la valeur de chaque paramètre à 1000, la valeur par défaut.

    Cette valeur est appropriée pour exécuter les calculs.

Un type d'analyse et quelques indicateurs et fonctions ne sont pas supportées pour Hive.
Consultez le tableau ci-dessous pour plus d'informations : Indicateurs non supportés Analyses non supportées
Avec le moteur SQL :

Soundex Low Frequency

Pattern (Low) Frequency

Upper Quartile et Lower Quartile

Median

Tous les indicateurs de fréquence de date

Le menu contextuel View rows des analyses de colonnes avec des indicateurs uniques, de doublons et tous les indicateurs de texte. Pour plus d'informations concernant le menu View rows, consultez Voir et exporter des données analysées.

Le menu contextuel View match rows des analyses de colonnes avec des indicateurs unique, de doublons et tous les indicateurs de texte. Pour plus d'informations concernant la vue View match rows, consultez Comparaison de colonnes identiques dans différentes tables.

Tous les menus contextuels sur les résultats d'analyse des analyses de dépendance fonctionnelle. Pour plus d'informations concernant cette analyse, consultez Détecter des anomalies dans des colonnes (Analyse de dépendance fonctionnelle).

La seule analyse non supportée par Hive est Time Correlation Analysis, comme le type de données Date n'existe pas dans Hive. Pour plus d'informations concernant ce type d'analyse, consultez Analyse de corrélation temporelle.

Les options de clic-droit sur les résultats d'analyse générant des Jobs pour valider, standardiser ou dédoublonner des données ne sont pas supportés pour Hive. Pour plus d'informations concernant ces Jobs, consultez Validation des données.

Hive et HBase

Lorsque vous choisissez de vous connecter à une base de données Hive ou HBase pour créer et exécuter des analyses différentes, dans l'assistant de connexion, vous devez, comme expliqué ci-dessus, sélectionner dans la liste Distribution la plateforme hébergeant Hive ou HBase.

- Si la distribution Hadoop à utiliser est Hortonworks Data Platform V2.0 (YARN), vous devez configurer le paramètres suivant dans la table Hadoop Properties :
  • Le paramètre est
    
                         yarn.application.classpath
                      
  • La valeur est :
    
                         /etc/hadoop/conf,/usr/lib/hadoop/,/usr/lib/hadoop/lib/,/usr/lib/hadoop-hdfs/,/usr/lib/hadoop-hdfs/lib/,/usr/lib/hadoop-yarn/,/usr/lib/hadoop-yarn/lib/,/usr/lib/hadoop-mapreduce/,/usr/lib/hadoop-mapreduce/lib/
                      

Oracle

Afin de supporter les paires de substitution, le paramètre NLS_CHARACTERSET de la base de données doit être configuré à UTF8 ou AL32UTF8.

Les paramètres NLS_CHARACTERSET par défaut sont :

  • NLS_CHARACTERSET=WE8ISO8859P15

  • NLS_NCHAR_CHARACTERSET=AL16UTF16

Remarque :

Pour vérifier les paramètres de la base de données, exécutez la requête SQL suivante :

SQL> SELECT * FROM NLS_DATABASE_PARAMETERS;