tHCatalogOperationの標準プロパティ - Cloud - 8.0

HCatalog

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > DBツール > HCatalog
データガバナンス > サードパーティーシステム > DBツール > HCatalog
データクオリティとプレパレーション > サードパーティーシステム > DBツール > HCatalog
Last publication date
2024-02-28

これらのプロパティは、標準ジョブのフレームワークで実行されているtHCatalogOperationを設定するために使われます。

標準tHCatalogOperationコンポーネントは、ビッグデータファミリーに属しています。

このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。

基本設定

[Property type] (プロパティタイプ)

[Built-in] (組み込み)[Repository] (リポジトリー)のいずれかです。

[Built-in] (組み込み): 一元的に保存されるプロパティデータはありません。

[Repository] (リポジトリー): プロパティが保管されるリポジトリーファイルを選択します。後続フィールドは、取得されたデータを使用して自動的に入力されます。

[Distribution] (ディストリビューション)

ドロップダウンリストから、使用するクラスターを選択します。リストのオプションは使用するコンポーネントによって異なります。これらのオプションの中でも、以下のオプションを使用するには特定の設定が必要です。
  • この[Distribution] (ディストリビューション)ドロップダウンリストに[Microsoft HD Insight]オプションが表示されている場合は、Microsoft HD Insightクラスターを利用できます。この場合、表示されているエリアでクラスターのHD Insightクラスター、Windows Azure Storageサービスへの接続を設定する必要があります。これらのパラメーターの詳細は、手動で接続を設定をご覧ください。

  • Amazon EMRを選択している場合は、Amazon EMR - Getting Startedで詳細をご覧ください。

  • [Custom] (カスタム)オプションを使用すれば、リストにあるディストリビューションのものとは異なるクラスター、つまり、 Talend で正式にサポートされていないクラスターに接続できます。

  1. [Import from existing version] (既存のバージョンからインポート)を選択すると、正式にサポートされているディストリビューションをベースとしてインポートしてから、ベースディストリビューションで提供されていない他の必要なjarファイルを追加できます。

  2. [Import from zip] (zipからインポート)を選択すると、使用するカスタムディストリビューションの設定zipファイルをインポートできます。zipファイルには、Hadoopの各種エレメントのライブラリーおよびこれらのライブラリーのインデックスファイルが含まれている必要があります。

    Talendはカスタムバージョンを公式にサポートしていません。Talendとそのコミュニティでは、Talend Studioからカスタムバージョンに接続するための方法を紹介していますが、Hadoopのディストリビューションとバージョンの種類は幅広いため、選択したバージョンの設定がスムーズに機能するかどうかは保証できません。そのような接続のセットアップは、Hadoopについてどんな問題でもご自身で対処できる十分な経験をお持ちの場合のみ行ってください。

    注:

    カスタムディストリビューションとこのコンポーネント間で作成する接続に関わるjarファイルがインポートされるように、このダイアログボックスのアクティブなチェックボックスをオフにしないでください。

    カスタムディストリビューションの接続方法、および接続の共有方法のステップ例は、Hortonworksをご覧ください。

HCatalog version (HCatalogバージョン)

使用しているHadoopのディストリビューションのバージョンを選択します。使用可能なオプションは、使用しているコンポーネントによって異なります。

Templeton hostname (Templetonのホスト名)

このフィールドにTempleton WebserviceのURLを入力します。

注:

Templetonは、HCatalog用のWebサービスAPIです。Apacheコミュニティによって名前がWebHCatに変更されています。このサービスにより、HCatalogおよび関連するHadoopエレメント(Pigなど)へのアクセスが容易になります。Templeton (WebHCat)の詳細は、https://cwiki.apache.org/confluence/display/Hive/WebHCat+UsingWebHCatをご覧ください。

Templeton port (Templetonのポート)

このフィールドにTempleton WebserviceのURLのポートを入力します。このフィールドのデフォルト値は50111です。

注:

Templetonは、HCatalog用のWebサービスAPIです。Apacheコミュニティによって名前がWebHCatに変更されています。このサービスにより、HCatalogおよび関連するHadoopエレメント(Pigなど)へのアクセスが容易になります。Templeton (WebHCat)の詳細は、https://cwiki.apache.org/confluence/display/Hive/WebHCat+UsingWebHCatをご覧ください。

[Use Kerberos authentication] (Kerberos認証を使用)

Kerberosセキュリティを実行しているHadoopクラスターにアクセスする場合は、このチェックボックスをオンにし、表示されるフィールドにネームノードとしてKerberosのプリンシパル名を入力します。これにより、ユーザー名を使って、Kerberosに保存された認証情報に対して認証を実行できます。

接続しているHadoopのディストリビューションによってはこのチェックボックスが表示されないこともあります。

[Use a keytab to authenticate] (Keytabを認証に使用)

[Use a keytab to authenticate] (Keytabを認証に使用)チェックボックスをオンにして、所定のkeytabファイルを使ってKerberos対応のシステムにログインします。keytabファイルには、Kerberosのプリンシパルと暗号化されたキーのペアが含まれています。使用するプリンシパルを[Principal] (プリンシパル)フィールドに入力し、keytabファイルへのアクセスパスを[Keytab] フィールドに入力します。このキータブファイルは、ジョブが実際に実行されているマシン(Talend JobServerなど)に保存する必要があります。

keytabが有効なジョブは、プリンシパルに任命されたユーザーでなくても実行できますが、使用するkeytabファイルの読み取り権限が必要です。たとえばuser1というユーザー名でジョブを実行し、使用するプリンシパルがguestの場合、user1に使用するキータブファイルの読み取り権限があることをご確認ください。

操作

DB操作のリストから次のオブジェクトを選択します。

Database (データベース): HDFSのHCatalog管理対象データベース。

Table (テーブル): HDFSのHCatalog管理対象テーブル。

Partition (パーティション): ユーザーが指定したパーティション。

オペレーション

DB操作のリストから操作を選択します。HDFSでのDB操作の詳細は、https://cwiki.apache.org/Hive/をご覧ください。

Create the table only it doesn't exist already (まだ作成していない場合にだけテーブルを作成する)
テーブルを作成する際、重複して作成するのを避けるためにこのチェックボックスをオンにしてください。
注:

このチェックボックスは、[Operation on] (操作)リストから[Table] (テーブル)を選択した場合にしか有効になりません。

データベース

このフィールドには、HCatalog管理対象テーブルを配置するデータベースの名前を入力します。

[Table] (テーブル)

このフィールドには、操作を行うデータベースの1つ以上のテーブルまたは指定のHDFSの場所を入力します。
注:

このフィールドは、[Operation on] (操作)リストから[Table] (テーブル)を選択した場合にのみ有効になります。テーブルへの操作の詳細は、https://cwiki.apache.org/Hive/をご覧ください。

Partition (パーティション)

このフィールドでは、指定したテーブルでのパーティション操作対象のパーティションを1つ以上指定します。複数のパーティションを指定する場合は、コンマを使って2つ置きにパーティションを区切り、二重引用符を使ってパーティション文字列を囲みます。

パーティショニングされていないテーブルを読み取る場合は、このフィールドを空にしておきます。

注:

このフィールドは、[Operation on] (操作)リストから[Partition] (パーティション)を選択した場合にのみ有効になります。パーティションへの操作の詳細は、https://cwiki.apache.org/Hive/をご覧ください。

[Username] (ユーザー名)

このフィールドには、DB認証用のユーザー名を入力します。

Database location (データベースの場所)

このフィールドには、HDFSのデータベースファイルのロケーションを入力します。
注:

このフィールドは、[Operation on] (操作)リストから[Database] (データベース)を選択した場合にのみ有効になります。

Database description (データベースの説明)

作成するデータベースの説明です。
注:

このフィールドは、[Operation on] (操作)リストから[Database] (データベース)を選択した場合にのみ有効になります。

外部テーブルの作成
[Advanced settings] (詳細設定)ビューの[Set HDFS location] (HDFSの場所を設定)フィールドで定義した代替パス内に外部テーブルを作成する場合は、このフィールドをオンにします。外部テーブル作成の詳細は、https://cwiki.apache.org/Hive/をご覧ください。
注:

[Operation on] (操作)リストから[Table] (テーブル)を選択し、[Operation] (操作)リストから[Create] (作成) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にしか、このチェックボックスは有効になりません。

形式

リストからファイル形式を選択して、作成する外部テーブルの形式を指定します。

TEXTFILE: テキスト形式ファイル。

RCFILE: Record Columnarファイル。RCFILEの詳細は、https://cwiki.apache.org/confluence/display/Hive/RCFileをご覧ください。
注:

RCFILEは、Hive 0.6.0以上でしか使用できません。[Operation on] (操作)リストから[Table] (テーブル)を選択し、[Operation] (操作)リストから[Create] (作成) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にしか、このリストは有効になりません。

パーティションの設定

[Set partitions] (パーティションの設定)チェックボックスの右の[Edit schema] (スキーマを編集)をクリックしてパーティションスキーマを設定する場合は、このチェックボックスをオンにします。パーティションスキーマが組み込まれるか、リポジトリーにリモートで保存されます。

注:

[Operation on] (操作)リストから[Table] (テーブル)を選択し、[Operation] (操作)リストから[Create] (作成) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にしか、このチェックボックスは有効になりません。HCatalog管理対象テーブルのパーティションスキーマの使用ルールに従ってください。パーティションスキーマの使用ルールの詳細は、https://cwiki.apache.org/confluence/display/Hive/HCatalogをご覧ください。

 

[Built-in] (組み込み): このコンポーネントに対してのみ作成されたスキーマがローカルに保管されます。[Basic settings] (基本設定)タブにあるコンポーネントスキーマの詳細は、[Basic settings] (基本設定)をご覧ください。

 

[Repository] (リポジトリー): 既存のスキーマがリポジトリーに保管されているので、さまざまなプロジェクトやジョブデザインで再利用できます。[Basic settings] (基本設定)タブにあるコンポーネントスキーマの詳細は、[Basic settings] (基本設定)をご覧ください。

Set the user group to use (使用するユーザーグループを設定する)
このチェックボックスをオンにすると、ユーザーグループを指定できます。
注:

[Operation] (操作)リストから[Drop] (ドロップ) / [Drop if exist] (存在する場合はドロップ) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択しないと、このチェックボックスは有効になりません。このフィールドのデフォルト値はrootです。サーバーのユーザーグループの詳細は、システム管理者にお問い合わせください。

オプション
データベースをドロップする時に句を選択してください。
注:

[Operation on] (操作)リストから[Database] (データベース)を選択し、[Operation] (操作)リストから[Drop] (ドロップ) / [Drop if exist] (存在する場合はドロップ) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にのみ、このリストは有効になります。データベースへのドロップ操作 の詳細は、https://cwiki.apache.org/Hive/をご覧ください。

Set the permissions to use (使用権限を設定する)
[Operation] (操作)リストから選択した操作に必要な権限を指定する場合、このチェックボックスをオンにします。
注:

[Operation] (操作)リストから[Drop] (ドロップ) / [Drop if exist] (存在する場合はドロップ) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択しないと、このチェックボックスは有効になりません。このフィールドのデフォルト値はrwxrw-r-xです。ユーザー権限の詳細は、システム管理者にお問い合わせください。

Set File location (ファイルのロケーションの設定)
パーティションデータが保存されているディレクトリーを入力します。
注:

[Operation on] (操作)リストから[Partition] (パーティション)を選択し、[Operation] (操作)リストから[Create] (作成) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にしか、このチェックボックスは有効になりません。HDFSへのパーティションデータの保存については、https://cwiki.apache.org/Hive/をご覧ください。

Die on error (エラー発生時に強制終了)

このチェックボックスをオンにすると、エラー時に行をスキップし、エラーの発生していない行の処理が完了されます。デフォルトでは選択されていません。

詳細設定

[Comment] (コメント)
作成するテーブルに関するコメントをこのフィールドに入力します。
注:

[Operation on] (操作)リストから[Table] (テーブル)を選択し、[Basic settings view] (基本設定ビュー)[Operation] (操作)リストから[Create] (作成) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にのみ、このフィールドは有効になります。

Set HDFS location (HDFSロケーションの設定)
作成したテーブルを保存するHDFSの場所を指定する場合、このチェックボックスをオンにします。作成するテーブルを、Hive設定ファイルhive-site.xmlにのキーhive.metastore.warehouse.dirで定義したウェアハウスディレクトリーに保存する場合は、このチェックボックスをオフにします。
注:

[Operation on] (操作)リストから[Table] (テーブル)を選択し、[Basic settings view] (基本設定ビュー)[Operation] (操作)リストから[Create] (作成) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にしか、このチェックボックスは有効になりません。HDFSへのデータ保存の詳細は、https://cwiki.apache.org/Hive/をご覧ください。

Set row format(terminated by) (行形式を設定する(以下で終了))

テーブルを作成する際、行形式を使用し、定義する場合にこのチェックボックスをオンにします。

[Field] (フィールド): フィールドを行形式として使用する場合はこのチェックボックスをオンにします。このフィールドのデフォルト値は"\u0001"です。このフィールドでは、カスタマイズした文字も指定できます。

[Collection Item] (コレクション項目): コレクション項目を行形式として使用する場合はこのチェックボックスをオンにします。このフィールドのデフォルト値は"\u0002"です。このフィールドでは、カスタマイズした文字も指定できます。

[Map Key] (マップキー): マップキーを行形式として使用する場合はこのチェックボックスをオンにします。このフィールドのデフォルト値は"\u0003"です。このフィールドでは、カスタマイズした文字も指定できます。

[Line] (行): を行形式として使用する場合はこのチェックボックスをオンにします。このフィールドのデフォルト値は"\n"です。このフィールドでは、カスタマイズした文字も指定できます。
注:

[Operation on] (操作)リストから[Table] (テーブル)を選択し、[Basic settings view] (基本設定ビュー)[Operation] (操作)リストから[Create] (作成) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にしか、このチェックボックスは有効になりません。HCatalog管理対象テーブルの行形式の詳細は、https://cwiki.apache.org/Hive/をご覧ください。

プロパティ
[+]をクリックして、1つ以上の行を追加してテーブルプロパティを定義します。テーブルプロパティを使用すると、ユーザー独自のメタデータのキー/値ペアでテーブルの定義をタグ付けできます。キーの行との行双方の値を必ず二重引用符で囲んでください。
注:

[Operation on] (操作)リストから[Database] (データベース) / [Table] (テーブル)を選択し、[Basic settings view] (基本設定ビュー)[Operation] (操作)リストから[Create] (作成) / [Drop and create] (ドロップおよび作成) / [Drop if exist and create] (存在する場合はドロップして作成)を選択した場合にのみ、このテーブルは有効になります。テーブルプロパティの詳細は、https://cwiki.apache.org/Hive/をご覧ください。

Retrieve the HCatalog logs (HCatalogログを取得する) HCatalogの操作中に生成されたログファイルを取得するには、このチェックボックスをオンにします。
[Standard Output Folder] (標準出力フォルダー)

ログファイルを保存するディレクトリーを参照または入力します。

注:

[Retrieve the HCatalog logs] (HCatalogログを取得する)チェックボックスをオンにしないと、このフィールドは有効になりません。

エラー出力フォルダー

エラーログファイルを保存するディレクトリーを参照または入力します。
注:

[Retrieve the HCatalog logs] (HCatalogログを取得する)チェックボックスをオンにしないと、このフィールドは有効になりません。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

グローバル変数

グローバル変数

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。

変数の詳細は、コンテキストと変数を使用をご覧ください。

使用方法

使用ルール

このコンポーネントは、単一コンポーネントサブジョブで共通して使用されます。

HCatalogはHiveメタストアの上にビルドされ、PigとMapReduceに読み取りと書き込みのインターフェイスを提供します。これは、後者のシステムがHiveのメタデータを使用して、HDFS内のデータの読み書きを容易に行うことができるようにするためです。

詳細は、ApacheのドキュメンテーションでHCatalogに関する説明(https://cwiki.apache.org/confluence/display/Hive/HCatalog)をご覧ください。

前提条件

Talend Studio との操作を確実に行うには、Hadoopディストリビューションを適切にインストールする必要があります。以下のリストに、MapR関連の情報などを示します。

  • MapRクライアントは必ずTalend Studioのあるマシンにインストールして、そのマシンのPATH変数にMapRクライアントライブラリーを追加します。MapRのドキュメンテーションによると、各OSバージョンに対応するMapRクライアントのライブラリーは、MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\nativeにあります。たとえば、Windows版のライブラリーは、\lib\native\MapRClient.dllにあるMapRクライアントのjarファイルにあります。

    指定のライブラリーを追加しないと、no MapRClient in java.library.pathというエラーが発生する可能性があります。

  • たとえば、[Window] (ウィンドウ)メニューの[Preferences] (環境設定)ダイアログボックスにある[Run/Debug] (実行/デバッグ)ビューの[Job Run VM arguments] (ジョブ実行VMの引数)エリアで、-Djava.library.path引数を設定するために使われます。この引数により、そのMapRクライアントのネイティブライブラリーへのパスがTalend Studioに渡されるので、サブスクリプションベースのユーザーはデータビューアーをフルに活用して、MapRに保存されたデータをTalend Studioでローカルに表示できます。

Hadoopディストリビューションのインストール方法の詳細は、使用しているHadoopディストリビューションに対応するマニュアルをご覧ください。

制限事項

[Use kerberos authentication] (Kerberos認証を使用)をオンにすると、コンポーネントは、IBM JVMと連動できません。