Hiveへの接続の作成 - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio

手順

  1. [Repository] (リポジトリ)ツリーで、[Metadata] (メタデータ)ノードの下の[Hadoop cluster] (Hadoopクラスター)ノードを展開し、使用するHadoop接続を右クリックしてコンテキストメニューから[Create Hive] (Hiveの作成)を選択します。
  2. 接続ウィザードが表示されます。ここで、[Name] (名前)[Purpose] (目的)[Description] (説明)など、ジェネリックプロパティを入力します。[Status] (ステータス)フィールドは、[File] (ファイル) > [Edit project properties] (プロジェクトプロパティの編集)で定義することができます。
  3. [Next] (次へ)をクリックして次の手順に進みます。ここでは、Hiveの接続情報を入力します。このうち、[DB Type] (DBの種類)[Hadoop cluster] (Hadoopクラスター)[Distribution] (ディストリビューション)[Version] (バージョン)[Server] (サーバー)[NameNode URL] (ネームノードURL)[JobTracker URL] (ジョブトラッカーURL)には、前の手順で選択したHadoop接続から継承されたプロパティが自動的に入力されます。
    [Hadoop cluster] (Hadoopクラスター)リストから[None] (なし)を選択すると、手動モードに切り替わり、継承されたプロパティが破棄されるので、全てのプロパティを手動で入力しなければなりません。作成された接続は、[Db connection] (Db接続)ノードの下だけに表示されます。
    設定するプロパティは、接続しているHadoopのディストリビューションによって異なります。
  4. [Version info] (バージョン情報)エリアで、接続するHiveデータベースのモデルを選択します。
  5. 選択したHiveモデルに応じて表示されるフィールドに情報を入力します。
    [Database] (データベース)フィールドを空欄にした場合は、[Standalone] (スタンドアロン)モデルを選択すると、defaultのHiveデータベースへの接続のみが有効になります。
  6. Kerberosセキュリティを実行しているHadoopディストリビューションにアクセスする場合は、[Use Kerberos authentication] (Kerberos認証の使用)チェックボックスをオンにします。次に、[Hive principal] (Hiveプリンシパル)フィールドが表示されたら、Kerberosのプリンシパル名を入力します。
    ログインにkeytabファイルが必要な場合は、[Use a keytab to authenticate] (認証にkeytabを使用)チェックボックスをオンにし、使用するプリンシパルを[Principal] (プリンシパル)フィールドに入力し、keytabファイルへのパスをKeytabフィールドに入力します。

    keytabファイルには、Kerberosのプリンシパルと暗号化したキーのペアが含まれています。keytabが有効なジョブは、プリンシパルに任命されたユーザーでなくても実行できますが、使用するkeytabファイルの読み取り権限が必要です。たとえば、user1というユーザー名でジョブを実行し、使用するプリンシパルがguestの場合、user1に使用するkeytabファイルの読み取り権限があることを確認して下さい。

  7. [Hive metastore port] (Hiveメタストアポート)フィールドに、使用するHiveシステムのメタストアのリスニングポート番号を入力します。
    このHiveシステムにHAメタストアが定義されている場合は、[Enable high availability] (高可用性の有効化)チェックボックスを選択して、表示されるフィールドに複数のリモートメタストアサービスのURIを入力し、それぞれをコンマ(,)で区切ります。
  8. Tezをサポートし、Talendの公式サポートを受けていないカスタムディストリビューションの資格である場合は、[Execution engine] (実行エンジン)リストからジョブのフレームワークとしてTezを選択します。
    ここで、この接続をHiveコンポーネントで再利用する場合に、そのコンポーネントの[Advanced settings] (詳細設定)ビューを使用してTezライブラリへのアクセスを設定する必要があります。
  9. 使用するHadoopまたはHiveディストリビューションの設定をカスタマイズする必要がある場合は、[Hadoop properties] (Hadoopプロパティ)または[Hive Properties] (Hiveプロパティ)のとなりの[...]ボタンをクリックして対応するプロパティテーブルを開き、カスタマイズするプロパティを追加します。その後、ランタイムにStudioがHadoopのエンジンに使用するデフォルトのプロパティが、カスタマイズした設定に上書きされます。
    Hadoopのプロパティについて詳しくは、http://hadoop.apache.org/docs/current/に記載されているApache Hadoopについてのドキュメンテーションを参照するか、使用するHadoopディストリビューションのドキュメンテーションを参照して下さい。たとえば、次のページにはデフォルトのHadoopプロパティの一部がリストされています: https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml
    Hiveのプロパティの詳細は、Hiveに関するApacheドキュメンテーションを参照して下さい。たとえば、次のページにはいくつかのHiveの設定プロパティについて説明されています: https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties
    これらのプロパティテーブルの活用方法の詳細は、再利用可能なHadoopプロパティの設定を参照してください。
  10. 接続が正常に行われたかどうかを確認するには、[Check] (チェック)ボタンをクリックします。
  11. 必要に応じて、[Database Properties] (データベースのプロパティ)エリアでデータベースプロパティに該当するフィールドを設定します。
  12. [Finish] (完了)をクリックして変更を確定し、ウィザードを閉じます。
    特定のHiveデータベースに作成した接続は、[Repository] (リポジトリー)ツリービューの[DB Connections] (DB接続)フォルダーの下に表示されます。この接続には4つのサブフォルダーがあり、そのうちの[Table schema] (テーブルスキーマ)には、この接続に関連するすべてのスキーマをグループ化することができます。
    環境コンテキストを使用してこの接続のパラメーターを定義する必要がある場合は、[Export as context] (コンテキストとしてエクスポート)ボタンをクリックして対応するウィザードを開き、以下のオプションから選択します。
    • [Create a new repository context] (新しいリポジトリコンテキストの作成): 現在のHadoop接続からこの環境コンテキストを作成します。つまり、ウィザードで設定するパラメーターは、これらのパラメーターに設定した値と共にコンテキスト変数として取られます。

    • [Reuse an existing repository context] (既存のリポジトリコンテキストを再利用): 特定の環境コンテキストの変数を使用して現在の接続を設定します。

    コンテキストの実装をキャンセルする必要がある場合は、[Revert context] (コンテキストから戻す)をクリックします。使用中のコンテキスト変数の値は、このウィザードに直接入力されます。

    この[Export as context] (コンテキストとしてエクスポート)機能の使い方の手順を追った説明は、コンテキストとしてのメタデータのエクスポートとコンテキストパラメーターを再利用した接続の設定を参照して下さい。

  13. 作成したHive接続を右クリックし、[Retrieve Schema] (スキーマの取得)を選択して、定義したHiveデータベースのすべてのスキーマを取得します。