Hiveへの接続の作成 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

手順

  1. [Repository] (リポジトリ)ツリーで、[Metadata] (メタデータ)ノードの下の[Hadoop cluster] (Hadoopクラスター)ノードを展開し、使用するHadoop接続を右クリックしてコンテキストメニューから[Create Hive] (Hiveの作成)を選択します。
  2. 接続ウィザードが表示されます。ここで、[Name] (名前)、[Purpose] (目的)、[Description] (説明)など、一般的なプロパティを入力します。[Status] (ステータス)フィールドは、[File] (ファイル) > [Edit project properties] (プロジェクトプロパティの編集)で定義することができます。
  3. [Next] (次へ)をクリックして次の手順に進みます。ここでは、Hiveの接続情報を入力します。このうち、[DB Type] (DBの種類)、[Hadoop cluster] (Hadoopクラスター)、[Distribution] (ディストリビューション)、[Version] (バージョン)、[Server] (サーバー)、[NameNode URL] (ネームノードURL)、[JobTracker URL] (ジョブトラッカーURL)には、前の手順で選択したHadoop接続から継承されたプロパティが自動的に入力されます。
    [Hadoop cluster] (Hadoopクラスター)リストから[None] (なし)を選択すると、手動モードに切り替わり、継承されたプロパティが破棄されるので、すべてのプロパティを手動で入力しなければなりません。作成された接続は、[Db connection] (Db接続)ノードの下だけに表示されます。
    設定するプロパティは、接続しているHadoopのディストリビューションによって異なります。
  4. [Version info] (バージョン情報)エリアで、接続するHiveデータベースのモデルを選択します。Hadoopの一部のディストリビューションでは、[Embedded] (組み込み)モデルと[Standalone] (スタンドアロン)モデルのどちらかを選択することができますが、いずれか一方しかないものもあります。
    選択したディストリビューションによっては、[Hive Server version] (Hiveサーバーのバージョン)リストから[Hive Server2]を選択できる場合もあります。このバージョンは、複数のクライアントへの同時接続のサポートがHive Server1よりも優れています。Hive Server2について詳しくは、https://cwiki.apache.org/confluence/display/Hive/Setting+up+HiveServer2を参照して下さい。
  5. 選択したHiveモデルに応じて表示されるフィールドに情報を入力します。
    [Database] (データベース)フィールドを空白にしたまま、[Embedded] (組み込み)モデルを選択すると、StudioはHiveにあるすべてのデータベースに自動的に接続します。また、[Standalone] (スタンドアロン)モデルを選択すると、デフォルトのHiveデータベースのみに接続します。
  6. Kerberosセキュリティを実行しているHadoopディストリビューションにアクセスする場合は、[Use Kerberos authentication] (Kerberos認証の使用)チェックボックスをオンにします。Hiveサーバー側の設定に基づいて次のようなフィールドに値を入力します。
    • [Hive principal] (Hiveプリンシパル)フィールドが表示されたら、Kerberosのプリンシパル名を入力します。

    • [Metastore URL] (メタストアURL)フィールドに、メタストアデータベースのURLを入力します。

    • [Driver jar] (ドライバーのjar)フィールドの横にある[...]ボタンをクリックし、メタストアデータベースのドライバーJARファイルを参照します。

    • [Driver class] (ドライバーのクラス)フィールドの横にある[...]ボタンをクリックし、適切なクラスを選択します。

    • [Username] (ユーザー名)フィールドと[Password] (パスワード)フィールドに、ユーザー名とパスワードを入力します。

    ログインにkeytabファイルが必要な場合は、[Use a keytab to authenticate] (認証にkeytabを使用)チェックボックスをオンにし、使用するプリンシパルを[Principal] (プリンシパル)フィールドに入力し、keytabファイルへのパスを[Keytab]フィールドに入力します。
    keytabファイルには、Kerberosのプリンシパルと暗号化したキーのペアが含まれています。keytabが有効なジョブは、プリンシパルに任命されたユーザーでなくても実行できますが、使用するkeytabファイルの読み取り権限が必要です。たとえば、user1というユーザー名でジョブを実行し、使用するプリンシパルがguestの場合、user1に使用するkeytabファイルの読み取り権限があることを確認して下さい。
  7. 以下のディストリビューションの1つを使用する場合は、[Execution engine] (実行エンジン)リストから、ジョブのフレームワークとしてTezを選択することができます。
    • Hortonworks: V2.1およびV2.2.

    • MapR: V4.0.1.

    • カスタム: このオプションにより、TezをサポートしつつもTalendで公式にサポートされていないディストリビューションに接続することができます。

    ここで、この接続をHiveコンポーネントで再利用する場合に、そのコンポーネントの[Advanced settings] (詳細設定)ビューを使用してTezライブラリへのアクセスを設定する必要があります。詳細は、 tHiveConnection などでHive関連のドキュメンテーションを参照して下さい。
  8. 使用するHadoopまたはHiveディストリビューションの設定をカスタマイズする必要がある場合は、[Hadoop properties] (Hadoopプロパティ)または[Hive Properties] (Hiveプロパティ)の横の[...]ボタンをクリックして対応するプロパティテーブルを開き、カスタマイズするプロパティを追加します。その後、ランタイムにStudioがHadoopのエンジンに使用するデフォルトのプロパティが、カスタマイズした設定に上書きされます。
    Hadoopのプロパティについて詳しくは、http://hadoop.apache.org/docs/current/に記載されているApacheのHadoopについてのドキュメンテーションを参照するか、使用するHadoopディストリビューションのドキュメンテーションを参照して下さい。たとえば、次のページにはデフォルトのHadoopプロパティの一部がリストされています: https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml
    Hiveのプロパティの詳細は、Hiveに関するApacheのドキュメンテーションを参照して下さい。たとえば、次のページにはいくつかのHiveの設定プロパティについて説明されています: https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties
    これらのプロパティテーブルの活用方法の詳細は、再利用可能なHadoopプロパティの設定を参照して下さい。
  9. 接続が正常に行われたかどうかを確認するには、[Check] (チェック)ボタンをクリックします。
  10. 必要に応じて、[Database Properties] (データベースのプロパティ)エリアでデータベースプロパティに該当するフィールドを設定します。
  11. [Finish] (完了)をクリックして変更を確定し、ウィザードを閉じます。
    特定のHiveデータベースに作成した接続は、[Repository] (リポジトリ)ツリービューの[DB Connections] (DB接続)フォルダーの下に表示されます。この接続には4つのサブフォルダーがあり、そのうちの[Table schema] (テーブルスキーマ)には、この接続に関連するすべてのスキーマをグループ化することができます。
    環境コンテキストを使用してこの接続のパラメーターを定義する必要がある場合は、[Export as context] (コンテキストとしてエクスポート)ボタンをクリックして対応するウィザードを開き、以下のオプションから選択します。
    • [Create a new repository context] (新しいリポジトリコンテキストの作成): 現在のHadoop接続からこの環境コンテキストを作成します。つまり、ウィザードで設定するパラメーターは、これらのパラメーターに設定した値と共にコンテキスト変数として取られます。

    • [Reuse an existing repository context] (既存のリポジトリコンテキストを再利用): 特定の環境コンテキストの変数を使用して現在の接続を設定します。

    コンテキストの実装をキャンセルする必要がある場合は、[Revert context] (コンテキストから戻す)をクリックします。 使用中のコンテキスト変数の値は、このウィザードに直接入力されます。

    この[Export as context] (コンテキストとしてエクスポート)フィーチャーの使い方の手順を追った説明は、コンテキストとしてのメタデータのエクスポートとコンテキストパラメーターを再利用した接続の設定を参照して下さい。

  12. 作成したHive接続を右クリックし、[Retrieve Schema] (スキーマの取得)を選択して、定義したHiveデータベースのすべてのスキーマを取得します。