HCatalogへの接続の作成 - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio

手順

  1. [Repository] (リポジトリー)ツリーで、[Metadata] (メタデータ)ノードの下の[Hadoop cluster] (Hadoopクラスター)ノードを展開し、使用するHadoop接続を右クリックしてコンテキストメニューから[Create HCatalog] (HCatalogの作成)を選択します。
  2. 接続ウィザードが表示されます。ここで、[Name] (名前)、[Purpose] (目的)、[Description] (説明)など、一般的なプロパティを入力します。[Status] (ステータス)フィールドは、[File] (ファイル) > [Edit project properties] (プロジェクトプロパティの編集)で定義することができます。
  3. 完了したら、[Next] (次へ)をクリックします。次の手順では、HCatalogの接続データを入力します。このうち、[Host name] (ホスト名)には、前の手順で選択したHadoop接続から継承された値が自動的に入力されます。Templetonの[Port] (ポート)と[Database] (データベース)は、デフォルトの値を使用します。
    このデータベースはHiveデータベースで、Templeton (WebHcat)はHCatalogでコマンドを発行するために、RESTに類似したWeb APIとして使用します。Templeton (WebHcat)の詳細は、https://cwiki.apache.org/confluence/display/Hive/WebHCat+UsingWebHCatでApacheのドキュメンテーションを参照して下さい。
    [ Principal] (プリンシパル)フィールドと[Realm] (領域)フィールドは、使用しているHadoop接続でKerberosセキュリティが有効な場合にのみ表示されます。これらのフィールドは、KerberosでHCatalogクライアントとHCatalogサーバーを相互に認証するために必要なプロパティです。
    注:

    Hadoopサーバーのホスト名をクライアントやホストのコンピューターで識別可能にするには、クライアントとホストのコンピューターの関連するhostsファイルにそのホスト名でIPアドレスとホスト名のマッピングエントリを追加する必要があります。たとえば、Hadoopサーバーのホスト名がtalend-all-hdpで、IPアドレスが192.168.x.xの場合、マッピングエントリは192.168.x.x talend-all-hdpとなります。Windowsシステムでは、このエントリをC:\WINDOWS\system32\drivers\etc\hostsに追加します(WindowsがCドライブにインストールされている場合)。Linuxシステムでは、このエントリを/etc/hostsのファイルに追加します。

  4. 必要に応じて、これらのデフォルト値を接続先のHCatalogで使用しているポートとデータベースに変更します。
  5. [ Principal] (プリンシパル)と[Realm] (領域)のプロパティも必要に応じて入力します。
  6. 使用するHadoopまたはHCatalogディストリビューションの設定をカスタマイズする必要がある場合は、[Hadoop properties] (Hadoopプロパティ)のとなりの[...]ボタンをクリックしてプロパティテーブルを開き、カスタマイズするプロパティを追加します。これらの変更内容はHadoopエンジンのプロパティとして使用され、Studioで使用される対応するデフォルトプロパティは実行時に上書きされます。
    [Parent Hadoop properties] (親Hadoopプロパティ)テーブルは、現在編集中のプロパティテーブルの上に表示されます。この親テーブルは読み取り専用で、現在のHCatalog接続のベースとなる親Hadoop接続のウィザードで定義されたHadoopプロパティがリストされます。
    Hadoopのプロパティについて詳しくは、http://hadoop.apache.org/docs/current/に記載されているApacheのHadoopについてのドキュメンテーションを参照するか、使用するHadoopディストリビューションのドキュメンテーションを参照して下さい。たとえば、次のページにはデフォルトのHadoopプロパティの一部がリストされています: https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml
    HCatalogのプロパティの詳細は、HCatalogに関するApacheのドキュメンテーションを参照して下さい。たとえば、次のページにはHCatalogの設定プロパティについていくつか説明されています: https://cwiki.apache.org/confluence/display/Hive/HCatalog+Configuration+Properties
    このプロパティテーブルの活用方法の詳細は、再利用可能なHadoopプロパティの設定を参照して下さい。
  7. [Check] (チェック)をクリックして、定義した接続をテストしてみます。正しく接続できたかどうかを示すメッセージが表示されます。
  8. [Finish] (完了)をクリックして、変更を確定します。
    作成したHCatalogの接続は、[Repository] (リポジトリー)ツリービューの[Hadoop cluster] (Hadoopクラスター)ノードの下に表示されます。
    注:

    この[Repository] (リポジトリー)ビューは、使用しているStudioのエディションによって異なる場合があります。

    環境コンテキストを使用してこの接続のパラメーターを定義する必要がある場合は、[Export as context] (コンテキストとしてエクスポート)ボタンをクリックして対応するウィザードを開き、以下のオプションから選択します。
    • [Create a new repository context] (新しいリポジトリコンテキストの作成): 現在のHadoop接続からこの環境コンテキストを作成します。つまり、ウィザードで設定するパラメーターは、これらのパラメーターに設定した値と共にコンテキスト変数として取られます。

    • [Reuse an existing repository context] (既存のリポジトリコンテキストを再利用): 特定の環境コンテキストの変数を使用して現在の接続を設定します。

    コンテキストの実装をキャンセルする必要がある場合は、[Revert context] (コンテキストから戻す)をクリックします。使用中のコンテキスト変数の値は、このウィザードに直接入力されます。

    この[Export as context] (コンテキストとしてエクスポート)機能の使い方の手順を追った説明は、コンテキストとしてのメタデータのエクスポートとコンテキストパラメーターを再利用した接続の設定を参照して下さい。

  9. 新しく作成した接続を右クリックし、ドロップダウンリストから[Retrieve schema] (スキーマの取得)を選択して、目的のテーブルスキーマを確立した接続からロードします。