Hiveテーブルスキーマの取得 - 7.1

Talend Real-time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Real-Time Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

この手順では、接続したHiveデータベースから対象のテーブルスキーマを取得します。

警告: Talend Administration Center[Manual lock] (手動ロック)オプションが選択された状態で、SVNまたはGit管理プロジェクトの作業を行っている場合は、接続のテーブルスキーマを取得または更新する前に、必ず、[Repository] (リポジトリー)ツリービューで接続を手動でロックして下さい。ロックしないと、接続が読み取り専用となり、ウィザードの[Finish] (終了)ボタンが機能しなくなります。プロジェクトアイテムのロックおよびロック解除と、さまざまなロックタイプの詳細は、プロジェクトアイテムでの共同作業を参照して下さい。

手順

  1. [Repository] (リポジトリー)ビューで、目的のHive接続を右クリックし、コンテキストメニューから[Retrieve schema] (スキーマの取得)を選択して、表示されたウィザードの[Next] (次へ)をクリックしてHiveデータベースのテーブルにフィルターをかけます。
  2. 使用するデータベーステーブルのノードを展開して取得するカラムを選択し、[Next] (次へ)をクリックしてウィザードで新しいビューを開きます。このビューには、選択したテーブルスキーマがリストされます。ウィザードの右側にある[Schema] (スキーマ)エリアでスキーマを選択すると、その詳細が表示されます。
    警告: ソースデータベーステーブルに文字列ではなく関数または式であるデフォルト値が含まれる場合、最終スキーマを使用したデータベーステーブルの作成時に予期せぬ結果になるのを回避するため、最終スキーマ内のデフォルト値を囲む一重引用符(ある場合)は必ず削除して下さい。詳細は、取得済みスキーマのデフォルト値を検証を参照して下さい。
  3. 必要に応じて、選択したスキーマを変更します。[Schema] (スキーマ)エリアでは、必要に応じてスキーマの名前を変更したり、スキーマの構造をカスタマイズすることができます。
    ツールバーを使って、スキーマにカラムを追加したり、削除や移動を行うこともできます。
    デフォルトのスキーマを使って、選択したスキーマへの変更を上書きする場合は、[Retrieve schema] (スキーマの取得)をクリックします。このボタンをクリックすると、スキーマへの変更は全て失われます。
  4. Hiveテーブルスキーマの取得を完了するには、[Finish] (完了)をクリックします。取得したスキーマは全て[Repository] (リポジトリー)ビューの関連するHive接続の下に表示されます。
    さらにスキーマを編集する必要がある場合は、コンテキストメニューから[Edit Schema] (スキーマの編集)を選択し、このウィザードをもう一度開いて変更を行います。
    警告:

    スキーマを変更した場合は、[Type] (タイプ)カラムのデータ型が正しく定義されていることを確認して下さい。

タスクの結果

前述したように、[Hadoop cluster] (Hadoopクラスター)ノードを使用するほか、[Db connection] (Db接続)ノードから開始してHive接続を作成し、スキーマを取得することもできます。いずれの場合も、特定のHive接続のプロパティを定義する必要があります。ここでは、次のケースが考えられます。
  • [Hadoop cluster] (Hadoopクラスター)リストから[Repository] (リポジトリー)オプションを選択し、確立されたHadoop接続の詳細を再利用して作成されたHive接続は、[Hadoop cluster] (Hadoopクラスター)ノードと[Db connection] (Db接続)ノードの両方に分類されます。

  • [Hadoop cluster] (Hadoopクラスター)リストから[None] (なし)オプションを選択し、Hadoop接続のプロパティを手動で入力して作成されたHive接続は、[Db connection] (Db接続)ノードにのみ表示されます。