Apache Spark BatchのtHBaseOutputプロパティ - 7.3

HBase

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > NoSQLコンポーネント > HBase
データガバナンス > サードパーティーシステム > NoSQLコンポーネント > HBase
データクオリティとプレパレーション > サードパーティーシステム > NoSQLコンポーネント > HBase

これらのプロパティを使って、Spark Batchジョブフレームワーク内で実行されているtHBaseOutputを設定します。

Spark BatchtHBaseOutputコンポーネントはデータベースファミリーのコンポーネントです。

このフレームワーク内のコンポーネントは、ビッグデータ対応のサブスクリプションTalend 製品すべて、およびTalend Data Fabricで使用できます。

基本設定

Storage configuration (ストレージ設定)

使用するSparkシステムにHBaseに接続するための設定情報を読み取らせるtHBaseConfigurationコンポーネントを選択します。

[Property type] (プロパティタイプ)

[Built-In] (組み込み)または[Repository] (リポジトリー)のいずれか。

[Built-In] (組み込み): プロパティデータは一元的に保存されません。

[Repository] (リポジトリー): プロパティを保存するリポジトリーファイルを選択します。

このアイコンをクリックすると、データベース接続ウィザードが開き、コンポーネント[Basic settings] (基本設定)ビューに設定したデータベース接続パラメーターが保存されます。

データベース接続パラメーターの設定と保管の詳細は、Talend Studioユーザーガイドを参照してください。

[Schema] (スキーマ)および[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを使用できます。

  • [View schema] (スキーマの表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続を更新): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーのコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

 

[Built-in] (組み込み): そのコンポーネントのみのスキーマを作成して、ローカルに保存します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Table name] (テーブル名)

データを書き込む必要のあるHBaseテーブルの名前を入力します。このテーブルは既に存在するものでなければなりません。

行のキーカラム

HBaseテーブルの行のキーカラムとして使用されたカラムを選択します。

必要な場合は、[Store row key column to HBase column] (行のキーカラムをHBaseカラムに保存する)チェックボックスをオンにして、行のキーカラムを、特定のカラムファミリーに属するHBaseカラムにします。

[Custom Row Key] (カスタム行キー)

カスタマイズ行キーを使用するには、このチェックボックスをオンにします。オンにすると、対応するフィールドが表示されます。作成するHBaseテーブルの行をインデックス化するためのユーザー定義の行キーを入力します。

たとえば、"France"+Numeric.sequence("s1",1,1)と入力して一連の行キーを生成します: France1France2France3など。

Families (ファミリー)

このテーブルに入力して、処理するデータフロー用に定義されているスキーマカラムに使うテーブルのカラムをマップします。

このテーブルの[Column] (カラム)カラムは、スキーマを定義すると自動的に入力されます。作成または使用するカラムファミリーを[Family name] (ファミリー名)カラムに入力して、[Column] (カラム)カラム内のカラムをグループ化します。カラムファミリーの詳細の詳細は、Column familiesでApacheのドキュメンテーションを参照してください。

詳細設定

[Use batch mode] (バッチモードの使用)

このチェックボックスをオンにして、データ処理のバッチモードを有効にします。

バッチサイズ

各バッチで処理するレコードの数を指定します。

このフィールドは、[Use batch mode] (バッチモードの使用)チェックボックスがオンの場合にのみ表示されます。

[Use local timezone for date] (日付にローカルタイムゾーンを使用) ジョブが実行されるコンピューターのローカルな日付を使用するには、このチェックボックスをオンにします。このチェックボックスをオフのままにしておくと、日付タイプのデータ形式にUTCが自動的に使用されます。

使用方法

使用ルール

このコンポーネントは終了コンポーネントとして使用され、入力リンクを必要とします。

このコンポーネントは、HBaseに接続するために同じジョブ内にあるtHBaseConfigurationコンポーネントを使用します。

このコンポーネントは、所属するSpark Batchコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメントのシナリオでは、[Standard] (標準)ジョブ、つまり従来の Talend データ統合ジョブだけを扱います。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark Configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • Quboleを使用する場合は、ジョブにtS3Configurationを追加し、QuboleでS3システム内に実際のビジネスデータを書き込みます。tS3Configurationを使用しないと、このビジネスデータはQubole HDFSシステムに書き込まれ、クラスターをシャットダウンすると破棄されます。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使用されているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): tHDFSConfigurationまたはtS3Configurationなど、クラスターで使用されているファイルシステムに対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。