Ce que vous devez savoir à propos de certaines bases de données - 7.0

Guide d'utilisation de Talend Open Studio for Data Quality

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Open Studio for Data Quality
task
Création et développement
EnrichPlatform
Studio Talend

Hive

Le serveur Hive a besoin de suffisamment de mémoire pour s'exécuter correctement. Avant de vous connecter à une base de données Hive :
  1. Allez dans la configuration du serveur Hive.
  2. Configurez le paramètre HiveServer2 Java Heap Size à 1 Go minimum.
Si vous choisissez de vous connectez à une base de données Hive, vous pouvez créer et exécuter différentes analyses, comme avec les autres types de bases de données.

Dans l'assistant, vous devez sélectionnez, dans la liste Distribution la plateforme hébergeant Hive. Vous devez également configurer la version et le mode de Hive. Pour plus d'informations, consultez le site Web http://hadoop.apache.org/ (en anglais).

- Si vous décidez de modifier le nom d'utilisateur en mode embarqué d'une connexion Hive, vous devez redémarrer le Studio avant de pouvoir exécuter les analyses de profiling utilisant cette connexion. Pour plus d'informations concernant l'utilisation des informations d'authentification à Hive, consultez la documentation sur Fonctionnement des informations d'authentification à Hive en mode Embedded dans le Studio Talend (https://help.talend.com).

- Si la distribution Hadoop à utiliser est Hortonworks Data Platform V1.2 ou Hortonworks Data Platform V1.3, vous devez configurer des allocations de mémoire spécifiques pour les calculs Map et Reduce à effectuer par le système Hadoop. Dans la deuxième étape de l'assistant de connexion :
  1. Cliquez sur le bouton à côté de Hadoop Properties et, dans la boîte de dialogue, cliquez deux fois sur le bouton [+] pour ajouter deux lignes à la table.
  2. Saisissez le nom des paramètres, respectivement mapred.job.map.memory.mb et mapred.job.reduce.memory.mb.
  3. Configurez la valeur de chaque paramètre à 1000, la valeur par défaut. Cette valeur est appropriée pour exécuter les calculs.
Si la distribution Hadoop à utiliser est Hortonworks Data Platform V2.0 (YARN), vous devez configurer le paramètres suivant dans la table Hadoop Properties :
  • Le paramètre est : yarn.application.classpath.
  • La valeur est : /etc/hadoop/conf,/usr/lib/hadoop/,/usr/lib/hadoop/lib/,/usr/lib/hadoop-hdfs/,/usr/lib/hadoop-hdfs/lib/,/usr/lib/hadoop-yarn/,/usr/lib/hadoop-yarn/lib/,/usr/lib/hadoop-mapreduce/,/usr/lib/hadoop-mapreduce/lib/.
Un type d'analyse et quelques indicateurs et fonctions ne sont pas supportées pour Hive. Consultez le tableau ci-dessous pour plus d'informations :

Consultez le tableau ci-dessous pour plus d'informations :

Indicateurs non supportés Analyses non supportées

Avec le moteur SQL :

- Basse fréquence Soundex.

- Pattern (Low) Frequency.

- Upper Quartile et Lower Quartile.

- Median

- Indicateurs de fréquence de date.

- Le menu contextuel View rows des analyses de colonnes avec des indicateurs unique, de doublons et tous les indicateurs de texte.

Pour plus d'informations concernant le menu View rows, consultez Voir et exporter des données analysées.

- Le menu contextuel View match rows des analyses de colonnes avec des indicateurs unique, de doublons et tous les indicateurs de texte.

Pour plus d'informations concernant la vue View match rows, consultez Comparaison de colonnes identiques dans différentes tables.

- Tous les menus contextuels sur les résultats d'analyse des analyses de dépendance fonctionnelle.

Pour plus d'informations concernant cette analyse, consultez Détecter des anomalies dans des colonnes (Analyse de dépendance fonctionnelle).

- La seule analyse non supportée par Hive est Time Correlation Analysis, comme le type de données Date n'existe pas dans Hive. Pour plus d'informations concernant ce type d'analyse, consultez Analyse de corrélation temporelle.

Microsoft SQL Server

Microsoft SQL Server 2012 et les versions supérieures sont supportées.

Si vous choisissez de vous connecter à la base de donnée Microsoft SQL Server via l'authentification Windows , vous pouvez sélectionnez Microsoft ou JTDS open source dans la liste Db Version.

MySQL

Lorsque vous créez une connexion à MySQL via JDBC, il n'est pas obligatoire d'inclure le nom de la base de données à l'URL JDBC. Que l'URL de connexion à la base de données spécifiée dans le champ JDBC URL contienne le nom de la base de données ou non, tous les catalogues sont récupérés.

Par exemple, si vous indiquez jdbc:mysql://192.168.33.41:3306/tbi?noDatetimeStringSync=truetbi est le nom de la base de données, ou bien jdbc:mysql://192.168.33.41:3306/?noDatetimeStringSync=true, tous les catalogues sont récupérés.

Netezza

La base de données Netezza ne supporte pas les expressions régulières. Si vous souhaitez utiliser les expressions régulières avec cette base de données, vous devez :

Teradata

Dans la base de données Teradata, la fonction d'expressions régulières est installée par défaut à partir de la version 14. Si vous souhaitez utiliser les expressions régulières avec une version plus ancienne de la base de données, vous devez installer une fonction personnalisée dans Teradata et ajouter la définition de l'indicateur pour Teradata dans le Studio. Pour plus d'informations concernant l'utilisation des expressions régulières avec Teradata, consultez la documentation sur Utilisation d'expressions régulières dans Teradata (https://help.talend.com).