一部のデータベースについて必要な知識 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

Microsoft SQL Server

Microsoft SQL Server 2012以降がサポートされています。

Windows認証モードでMicrosoft SQL Serverデータベースに接続する場合は、[Db Version] (Dbバージョン)リストから[Microsoft]または[JTDS open source] (JTDSオープンソース)を選択します。

Microsoft SQL Serverデータベースを使用してレポート結果を保存する場合、ドライバーは[JTDS open source] (JTDSオープンソース)のみがサポートされています。 その場合は、MicrosoftとjTDSのドライバー間のコンフリクトを避けるために、[Db Version] (Dbバージョン)リストから[JTDS open source] (JTDSオープンソース)を選択することをお勧めします。

jTDSドライバーを使用してMicrosoft SQL Serverデータベースへの接続を作成する前に:
  • jTDSドライバーバージョン1.3.1をhttp://jtds.sourceforge.net/からダウンロードします。
  • アーカイブからファイルを抽出し、オペレーティングシステムに応じてntlmauth.dllファイルをx64/SSOまたはx86/SSOの下にコピーします。
  • ntlmauth.dllファイルを%SYSTEMROOT%/system32に貼付けます。

[SSO Failed: Native SSPI library not loaded] (SSOが失敗しました: ネイティブSSPIライブラリがロードされませんでした)というエラーが発生した場合は、Talend Studioによって使用されているJREのbinフォルダーにntlmauth.dllを貼付けます。

Teradata

Teradataデータベースへの接続を選択した場合、[USE SQL Mode] (SQLモードの使用)の横の[Yes] (はい)オプションを選択し、Studioでのメタデータの取得にSQLクエリを使用できるようにします。JDBCドライバーはパフォーマンス不良となる可能性があるため、このデータベースでは推奨されません。

Teradataデータベースでは、正規表現関数は、バージョン14からのみデフォルトでインストールされます。このデータベースの以前のバージョンで正規表現を使用する場合、Teradataにユーザー定義関数をインストールし、StudioにTeradataのインジケーター定義を追加します。Teradataでの正規表現の使い方は、 Using regular expressions with Teradata (https://help.talend.com)でドキュメンテーションを参照して下さい。

Netezza

Netezzaデータベースでは正規表現はサポートされません。このデータベースで正規表現を使用する場合は、次のいずれかを実行する必要があります。
  • NetezzaシステムにSQL Extensions Toolkitパッケージをインストールします。このツールキットに付属のregex_like関数をSQLテンプレートで使用します。方法は、http://pic.dhe.ibm.com/infocenter/ntz/v7r0m3/topic/com.ibm.nz.sqltk.doc/r_sqlext_regexp_like.htmlを参照して下さい。

  • Studioの[Libraries] (ライブラリ) > [Indicators] (インジケーター) > [System Indicators] (システムインジケーター)の下の[Pattern Matching] (パターンマッチング)フォルダーにNetezzaのインジケーター定義を追加します。

    Netezzaに対して定義する必要のあるクエリテンプレートは、 次のとおりです: SELECT COUNT(CASE WHEN REGEXP_LIKE(<%=COLUMN_NAMES%>,<%=PATTERN_EXPR%>) THEN 1 END), COUNT FROM <%=TABLE_NAME%> <%=WHERE_CLAUSE%>特定のデータベースにインジケーター定義を追加する詳細手順は、特定のデータベースに対するクエリテンプレートを定義するを参照して下さい。

Hive

Hiveデータベースへの接続を選択した場合、他のデータベースタイプのようにさまざまな分析を作成して実行できます。

接続ウィザードで、[Distribution] (ディストリビューション)からHiveをホストするプラットフォームを選択する必要があります。また、Hiveのバージョンとモデルも設定する必要があります。詳細は、データベースメタデータの一元管理および http://hadoop.apache.org/を参照して下さい。

-Hive接続の組み込みモードでユーザー名を変更する場合、接続を使用するプロファイリング分析を正常に実行するために、Studioを再起動する必要があります。Hiveでのユーザークレデンシャルの使用については、Talend StudioのHive埋め込みモードでユーザー資格情報が動作するしくみ (https://help.talend.com)でドキュメンテーションを参照して下さい。

-使用するHadoopディストリビューションがHortonworks Data Platform V1.2またはHortonworks Data Platform V1.3の場合、マッピングのために適切なメモリの割り当てを行い、Hadoopシステムで実行される計算を減少する必要があります。接続ウィザードの2番目の手順で、次の操作を実行します。
  1. [Hadoop Properties] (Hadoopプロパティ)の横のボタンをクリックし、開いたダイアログボックスで[+]ボタンをクリックし、テーブルに2つの行を追加します。
  2. パラメーター名に「mapred.job.map.memory.mb」と「mapred.job.reduce.memory.mb」を入力します。
  3. それらの値をデフォルト値の「1000」に設定します。 通常、この値は計算を実行するために適切です。
Hiveでは1つの分析タイプ、いくつかのインジケーターと機能がサポートされていないことに注意して下さい。詳細は、次の表を参照して下さい。

非対応のインジケーター

非対応の機能 非対応の分析

SQLエンジンを使った場合:

-Soundex低頻度。

-パターン(低)頻度。

-上位クォータイルおよび下位クォータイル。

-中央。

-すべての日付頻度インジケーター。

-一意のインジケーター、複製のインジケーター、すべてのテキストインジケーターを使ったカラム分析のための[View rows] (行を表示)コンテキストメニュー。

[View rows] (行を表示)メニューの詳細は、分析されたデータの表示とエクスポートを参照して下さい。

-一意のインジケーター、複製のインジケーター、すべてのテキストインジケーターを使ったカラム分析のための[View match rows] (一致する行を表示)コンテキストメニュー。

[View match rows] (一致する行を表示)の詳細は、異なるテーブルにある同一カラムの比較を参照して下さい。

-関数依存分析の分析結果に関するすべてのコンテキストメニュー。

この分析の詳細は、カラム内の異常の検出(機能的な依存性の分析)を参照して下さい。

-Hiveに対応していない唯一の分析は、時間コリレーション分析です。これはHiveにはDateデータ型がないためです。この分析タイプの詳細は、時間コリレーション分析を参照して下さい。

さらに、ジョブを生成して、データを検証、標準化、複製する分析結果での右クリックオプションは、Hiveに一切対応していません。これらのジョブの詳細は、データの検証を参照して下さい。

HiveおよびHBase

HiveまたはHBaseへの接続を選択して、さまざまな分析を作成し実行する場合、前述のように、接続ウィザードで、[Distribution] (ディストリビューション)からHiveまたはHBaseをホストするプラットフォームを選択する必要があります。

使用するHadoopディストリビューションがHortonworks Data Platform V2.0 (YARN)の場合、次のパラメーターを[Hadoop Properties] (Hadoopプロパティ)テーブルで設定する必要があります。
  • パラメーターは次のとおりです。
    
                         yarn.application.classpath
                      
  • 値は次のとおりです。
    
                         /etc/hadoop/conf,/usr/lib/hadoop/,/usr/lib/hadoop/lib/,/usr/lib/hadoop-hdfs/,/usr/lib/hadoop-hdfs/lib/,/usr/lib/hadoop-yarn/,/usr/lib/hadoop-yarn/lib/,/usr/lib/hadoop-mapreduce/,/usr/lib/hadoop-mapreduce/lib/