tHCatalogOperation標準プロパティ - 7.3

HCatalog

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > DBツール > HCatalog
データガバナンス > サードパーティーシステム > DBツール > HCatalog
データクオリティとプレパレーション > サードパーティーシステム > DBツール > HCatalog

これらのプロパティを使って、標準ジョブフレームワークで実行されているtHCatalogOperationを設定します。

標準tHCatalogOperationコンポーネントはビッグデータファミリーのコンポーネントです。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。

基本設定

[Property type] (プロパティタイプ)

[Built-in] (組み込み)または[Repository] (リポジトリー)のいずれかで次の設定を行います

[Built-in] (組み込み): プロパティデータは一元的に保管されません。

[Repository] (リポジトリー): プロパティが保管されるリポジトリーファイルを選択します。後続フィールドは、取得されたデータを使用して自動的に入力されます。

[Distribution] (ディストリビューション)

使用するクラスターはドロップダウンリストから選択します。リストのオプションは使用するコンポーネントによって異なります。これらのオプションの中でも、以下のオプションを使用するには特定の設定が必要です。
  • この[Distribution] (ディストリビューション)ドロップダウンリストに[Microsoft HD Insight]オプションが表示されている場合は、Microsoft HD Insightクラスターを使用できます。この場合、表示されているエリアでクラスターのHD Insightクラスター、Windows Azure Storageサービスへの接続を設定する必要があります。これらのパラメーターの詳細は、Talend Help Center (https://help.talend.com)で接続の手動の設定について検索してください。

  • Amazon EMRを選択している場合、Amazon EMRの開始方法の詳細は、Talend Help Center (https://help.talend.com)を参照してください。

  • [Custom] (カスタム)オプションを使用すれば、リストにあるディストリビューションのものとは異なるクラスター、つまり、 Talend で正式にサポートされていないクラスターに接続できます。

  1. [Import from existing version] (既存のバージョンからインポート)を選択すると、正式にサポートされているディストリビューションをベースとしてインポートしてから、ベースディストリビューションで提供されていない他の必要なjarファイルを追加できます。

  2. [Import from zip] (zipからインポート)を選択すると、使用するカスタムディストリビューションの設定zipファイルをインポートできます。zipファイルには、Hadoopの各種エレメントのライブラリーおよびこれらのライブラリーのインデックスファイルが含まれている必要があります。

    Talend Exchangeでは、 Talend コミュニティのメンバーがすぐに使える設定用zipファイルが共有されており、[Hadoop configuration] (Hadoop設定)リストからダウンロードして接続に直接使用できます。ただし、さまざまなHadoop関連のプロジェクトが継続的に進展しているため、このリストから対応するディストリビューションの設定Zipが見つからないことがあります。その場合は、[Import from existing version] (既存のバージョンからインポート)オプションを使って、既存のディストリビューションをベースとして取得し、ディストリビューションに必要なjarを追加することをお勧めします。

    Talend はカスタムバージョンを公式にサポートしていません。 Talend とそのコミュニティでは、Studioからカスタムバージョンに接続するための方法を紹介していますが、Hadoopのディストリビューションとバージョンの種類は幅広いため、選択したバージョンの設定がスムーズに機能するかどうかは保証できません。そのような接続のセットアップは、Hadoopについてどんな問題でもご自身で対処できる十分な経験をお持ちの場合のみ行ってください。

    注:

    カスタムディストリビューションとこのコンポーネント間で作成する接続に関わるjarファイルがインポートされるように、このダイアログボックスの有効なチェックボックスをオフにしないでください。

    カスタムディストリビューションに接続して、その接続を共有する方法を段階的に説明する例については、Hortonworksを参照してください。

HCatalog version (HCatalogバージョン)

使用しているHadoopのディストリビューションのバージョンを選択します。使用可能なオプションは、使用しているコンポーネントによって異なります。

Templeton hostname (Templetonのホスト名)

このフィールドにTempleton WebserviceのURLを入力します。

注:

Templetonは、HCatalog用のWebサービスAPIです。Apacheコミュニティによって名前がWebHCatに変更されています。このサービスにより、HCatalogおよび関連するHadoopエレメント(Pigなど)へのアクセスが容易になります。Templeton (WebHCat)の詳細は、https://cwiki.apache.org/confluence/display/Hive/WebHCat+UsingWebHCatを参照してください。

Templeton port (Templetonのポート)

このフィールドにTempleton WebserviceのURLのポートを入力します。このフィールドのデフォルト値は50111です。

注:

Templetonは、HCatalog用のWebサービスAPIです。Apacheコミュニティによって名前がWebHCatに変更されています。このサービスにより、HCatalogおよび関連するHadoopエレメント(Pigなど)へのアクセスが容易になります。Templeton (WebHCat)の詳細は、https://cwiki.apache.org/confluence/display/Hive/WebHCat+UsingWebHCatを参照してください。

[Use Kerberos authentication] (Kerberos認証を使用)

Kerberosセキュリティを実行しているHadoopクラスターにアクセスする場合は、このチェックボックスをオンにし、表示されるフィールドにネームノードとしてKerberosのプリンシパル名を入力します。これにより、ユーザー名を使って、Kerberosに保存された認証情報に対して認証を実行できます。
  • このクラスターが5.0.0バージョン以上のMapRクラスターである場合、セキュリティ対応MapRへの接続に記載の説明に従って、MapRチケット認証設定を追加または代替として設定できます。

    この設定により、ジョブで定義されたユーザー名用の新しいMapRセキュリティチケットが実行ごとに生成されます。同じユーザー名に対して発行された既存のチケットを再使用する必要がある場合は、[Force MapR ticket authentication] ()チェックボックスと[Use Kerberos authentication] ()チェックボックスをオフにすると、そのチケットを即座に自動的に見つけることができます。

このチェックボックスは、接続しているHadoopのディストリビューションによっては、表示されないことがあります。

[Use a keytab to authenticate] (Keytabを認証に使用)

[Use a keytab to authenticate] (Keytabを認証に使用)チェックボックスをオンにして、所定のkeytabファイルを使ってKerberos対応のシステムにログインします。keytabファイルには、Kerberosのプリンシパルと暗号化されたキーのペアが含まれています。使用するプリンシパルを[Principal] (プリンシパル)フィールドに入力し、keytabファイルへのアクセスパスを[Keytab] フィールドに入力します。このkeytabファイルは、ジョブが実際に実行されているマシン、たとえば、Talend Jobserverに保存する必要があります。

keytabが有効なジョブは、プリンシパルに任命されたユーザーでなくても実行できますが、使用するkeytabファイルの読み取り権限が必要です。たとえば、user1というユーザー名でジョブを実行し、使用するプリンシパルがguestの場合、user1に使用するkeytabファイルの読み取り権限があることをご確認ください。

操作

DB操作のリストから次のオブジェクトを選択します。

Database (データベース): HDFSのHCatalog管理対象データベース。

Table (テーブル): HDFSのHCatalog管理対象テーブル。

Partition (パーティション): ユーザーが指定したパーティション。

オペレーション

DB操作のリストから操作を選択します。HDFSでのDB操作の詳細は、https://cwiki.apache.org/Hive/を参照してください。

Create the table only it doesn't exist already (まだ作成していない場合にだけテーブルを作成する)
テーブルを作成する際、重複して作成するのを避けるためにこのチェックボックスをオンにしてください。
注:

このチェックボックスは、[Operation on] (操作)リストから[Table] (テーブル)を選択した場合にしか有効になりません。

データベース

このフィールドには、HCatalog管理対象テーブルを配置するデータベースの名前を入力します。

[Table] (テーブル)

このフィールドには、操作を行うデータベースの1つ以上のテーブルまたは指定のHDFSの場所を入力します。
注:

このフィールドは、[Operation on] (操作)リストから[Table] (テーブル)を選択した場合にしか有効になりません。テーブルへの操作の詳細は、https://cwiki.apache.org/Hive/を参照してください。

Partition (パーティション)

このフィールドでは、指定したテーブルでのパーティション操作対象のパーティションを1つ以上指定します。複数のパーティションを指定する場合は、コンマを使って2つ置きにパーティションを区切り、二重引用符を使ってパーティション文字列を囲みます。

パーティション分割されていないテーブルを読み取る場合は、このフィールドを空にしておきます。

注:

このフィールドは、[Operation on] (操作)リストから[Partition] (パーティション)を選択した場合にしか有効になりません。パーティションへの操作の詳細は、https://cwiki.apache.org/Hive/を参照してください。

[Username] (ユーザー名)

このフィールドには、DB認証用のユーザー名を入力します。

Database location (データベースの場所)

このフィールドには、HDFSのデータベースファイルの場所を入力します。
注:

このフィールドは、[Operation on] (操作)リストから[Database] (データベース)を選択した場合にしか有効になりません。

Database description (データベースの説明)

作成するデータベースの説明です。
注:

このフィールドは、[Operation on] (操作)リストから[Database] (データベース)を選択した場合にしか有効になりません。

外部テーブルの作成
[Advanced settings] (詳細設定)ビューの[Set HDFS location] (HDFSの場所を設定)フィールドで定義した代替パス内に外部テーブルを作成する場合は、このフィールドをオンにします。外部テーブル作成の詳細は、https://cwiki.apache.org/Hive/を参照してください。
注:

[Operation on] (操作)リストから[Table] (テーブル)を選択し、[Operation] (操作)リストから[Create] (作成) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にしか、このチェックボックスは有効になりません。

形式

リストからファイル形式を選択して、作成する外部テーブルの形式を指定します。

TEXTFILE: テキスト形式ファイル。

RCFILE: Record Columnarファイル。RCFILEの詳細は、https://cwiki.apache.org/confluence/display/Hive/RCFileを参照してください。
注:

RCFILEは、Hive 0.6.0以上でしか使用できません。[Operation on] (操作)リストから[Table] (テーブル)を選択し、[Operation] (操作)リストから[Create] (作成) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にしか、このリストは有効になりません。

パーティションの設定

[Set partitions] (パーティションの設定)チェックボックスの右の[Edit schema] (スキーマを編集)をクリックしてパーティションスキーマを設定する場合は、このチェックボックスをオンにします。パーティションスキーマが組み込まれるか、リポジトリーにリモートで保存されます。

注:

[Operation on] (操作)リストから[Table] (テーブル)を選択し、[Operation] (操作)リストから[Create] (作成) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にしか、このチェックボックスは有効になりません。HCatalog管理対象テーブルのパーティションスキーマの使用ルールに従ってください。パーティションスキーマの使用ルールの詳細は、https://cwiki.apache.org/confluence/display/Hive/HCatalogを参照してください。

 

[Built-in] (組み込み): このコンポーネントに対してのみ作成されたスキーマがローカルに保管されます。関連項目: Talend Studio ユーザーガイドを参照してください。

 

[Repository] (リポジトリー): 既存のスキーマがリポジトリーに保管されているので、さまざまなプロジェクトやジョブデザインで再利用できます。関連項目: 『 Talend Studio ユーザーガイド』を参照してください。

Set the user group to use (使用するユーザーグループを設定する)
このチェックボックスをオンにすると、ユーザーグループを指定できます。
注:

[Operation] (操作)リストから[Drop] (ドロップ) / [Drop if exist] (存在する場合はドロップ) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択しないと、このチェックボックスは有効になりません。このフィールドのデフォルト値はrootです。サーバーのユーザーグループの詳細は、システム管理者にお問い合わせください。

オプション
データベースをドロップする時に句を選択してください。
注:

[Operation on] (操作)リストから[Database] (データベース)を選択し、[Operation] (操作)リストから[Drop] (ドロップ) / [Drop if exist] (存在する場合はドロップ) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にしか、このリストは有効になりません。データベースへのドロップ操作 の詳細は、https://cwiki.apache.org/Hive/を参照してください。

Set the permissions to use (使用権限を設定する)
[Operation] (操作)リストから選択した操作に必要な権限を指定する場合、このチェックボックスをオンにします。
注:

[Operation] (操作)リストから[Drop] (ドロップ) / [Drop if exist] (存在する場合はドロップ) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択しないと、このチェックボックスは有効になりません。このフィールドのデフォルト値はrwxrw-r-xです。ユーザー権限の詳細は、システム管理者にお問い合わせください。

Set File location (ファイルロケーションの設定)
パーティションデータが保存されているディレクトリーを入力します。
注:

[Operation on] (操作)リストから[Partition] (パーティション)を選択し、[Operation] (操作)リストから[Create] (作成) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にしか、このチェックボックスは有効になりません。HDFSへのパーティションデータの保存については、https://cwiki.apache.org/Hive/を参照してください。

Die on error (エラー発生時に強制終了)

このチェックボックスをオンにすると、エラー時に行をスキップし、エラーの発生していない行の処理が完了されます。デフォルトでは選択されていません。

詳細設定

[Comment] (コメント)
作成するテーブルに関するコメントをこのフィールドに入力します。
注:

[Operation on] (操作)リストから[Table] (テーブル)を選択し、[Basic settings view] (基本設定ビュー)[Operation] (操作)リストから[Create] (作成) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にしか、このフィールドは有効になりません。

Set HDFS location (HDFSロケーションの設定)
作成したテーブルを保存するHDFSの場所を指定する場合、このチェックボックスをオンにします。作成するテーブルを、Hive設定ファイルhive-site.xmlにのキーhive.metastore.warehouse.dirで定義したウェアハウスディレクトリーに保存する場合は、このチェックボックスをオフにします。
注:

[Operation on] (操作)リストから[Table] (テーブル)を選択し、[Basic settings view] (基本設定ビュー)[Operation] (操作)リストから[Create] (作成) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にしか、このチェックボックスは有効になりません。HDFSへのデータ保存の詳細は、https://cwiki.apache.org/Hive/を参照してください。

Set row format(terminated by) (行形式を設定する(以下で終了))

テーブルを作成する際、行形式を使用し、定義する場合にこのチェックボックスをオンにします。

[Field] (フィールド): フィールドを行形式として使用する場合はこのチェックボックスをオンにします。このフィールドのデフォルト値は"\u0001"です。このフィールドでは、カスタマイズした文字も指定できます。

[Collection Item] (コレクション項目): コレクション項目を行形式として使用する場合はこのチェックボックスをオンにします。このフィールドのデフォルト値は"\u0002"です。このフィールドでは、カスタマイズした文字も指定できます。

[Map Key] (マップキー): マップキーを行形式として使用する場合はこのチェックボックスをオンにします。このフィールドのデフォルト値は"\u0003"です。このフィールドでは、カスタマイズした文字も指定できます。

[Line] (行): を行形式として使用する場合はこのチェックボックスをオンにします。このフィールドのデフォルト値は"\n"です。このフィールドでは、カスタマイズした文字も指定できます。
注:

[Operation on] (操作)リストから[Table] (テーブル)を選択し、[Basic settings view] (基本設定ビュー)[Operation] (操作)リストから[Create] (作成) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にしか、このチェックボックスは有効になりません。HCatalog管理対象テーブルの行形式の詳細は、https://cwiki.apache.org/Hive/を参照してください。

プロパティ
[+]をクリックして、1つ以上の行を追加してテーブルプロパティを定義します。テーブルプロパティを使用すると、ユーザー独自のメタデータのキー/値ペアでテーブルの定義をタグ付けできます。キーの行との行双方の値を必ず二重引用符で囲んでください。
注:

[Operation on] (操作)リストから[Database] (データベース) / [Table] (テーブル)を選択し、[Basic settings view] (基本設定ビュー)[Operation] (操作)リストから[Create] (作成) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にしか、このテーブルは有効になりません。テーブルプロパティの詳細は、https://cwiki.apache.org/Hive/を参照してください。

Retrieve the HCatalog logs (HCatalogログを取得する) HCatalogの操作中に生成されたログファイルを取得するには、このチェックボックスをオンにします。
Standard Output Folder (標準出力フォルダー)

ログファイルを保存するディレクトリーを参照または入力します。

注:

[Retrieve the HCatalog logs] (HCatalogログを取得する)チェックボックスをオンにしないと、このフィールドは有効になりません。

エラー出力フォルダー

エラーログファイルを保存するディレクトリーを参照または入力します。
注:

[Retrieve the HCatalog logs] (HCatalogログを取得する)チェックボックスをオンにしないと、このフィールドは有効になりません。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

グローバル変数

[Global Variables] (グローバル変数)

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合にのみ機能します。

Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、『 Talend Studio ユーザーガイド』を参照してください。

使用方法

[Usage rule] (使用ルール)

このコンポーネントは、単一コンポーネントサブジョブで共通して使用されます。

HCatalogはHiveメタストアの上にビルドされ、PigとMapReduceに読み取りと書き込みのインターフェイスを提供します。これは、後者のシステムがHiveのメタデータを使用して、HDFS内のデータの読み書きを容易に行うことができるようにするためです。

詳細は、ApacheのドキュメンテーションでHCatalogに関する説明を参照してください: https://cwiki.apache.org/confluence/display/Hive/HCatalog

前提条件

Talend Studio との操作を確実に行うには、Hadoopディストリビューションを適切にインストールする必要があります。以下のリストに、MapR関連の情報などを示します。

  • MapRクライアントは必ずStudioのあるマシンにインストールして、そのマシンのPATH変数にMapRクライアントライブラリーを追加します。MapRのドキュメンテーションによると、各OSバージョンに対応するMapRクライアントのライブラリーは、MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\nativeにあるとされています。たとえば、Windows版のライブラリーは、\lib\native\MapRClient.dllにあるMapRクライアントのjarファイルにあります。詳細は、MapRからhttp://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-maprを参照してください。

    指定のライブラリーを追加しないと、no MapRClient in java.library.pathというエラーが発生する可能性があります。

  • たとえば、[Window] (ウィンドウ)メニューの[Preferences] (環境設定)ダイアログボックスにある[Run/Debug] (実行/デバッグ)ビューの[Job Run VM arguments] (ジョブ実行VMの引数)エリアで、-Djava.library.path引数を設定します。この引数により、そのMapRクライアントのネイティブライブラリーへのパスがStudioに渡されるので、サブスクリプションベースのユーザーはデータビューアーをフルに活用して、MapRに保存されたデータをStudioでローカルに表示できます。

Hadoopディストリビューションのインストール方法の詳細は、使用しているHadoopディストリビューションに対応するマニュアルを参照してください。

制限事項

[Use kerberos authentication] (Kerberos認証を使用)をオンにすると、コンポーネントはIBM JVMと連動できません。