Apache Spark StreamingのtHiveConfigurationプロパティ - 7.3

Hive

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > サードパーティーシステム > DBコンポーネント > Hive
データガバナンス > サードパーティーシステム > DBコンポーネント > Hive
データクオリティとプレパレーション > サードパーティーシステム > DBコンポーネント > Hive

このプロパティはSpark Streamingジョブフレームワークで実行されているtHiveConfigurationを設定するために使います。

Spark Streaming tHiveConfigurationコンポーネントはストレージファミリーのコンポーネントです。

このコンポーネントは、Talend Real Time Big Data PlatformおよびTalend Data Fabricで使用できます。

基本設定

[Distribution] (ディストリビューション)[Version] (バージョン)

Hive用に使用しているHadoopディストリビューションを選択します。

Sparkに必要とされるHiveのバージョンは0.13以上です。

使用しているHadoopのディストリビューションのバージョンを選択します。使用可能なオプションは、使用しているコンポーネントによって異なります。

[Hive thrift metastore] (Hive thriftメタストア)

[Host] (ホスト)の名前とリッスンしている[Port] (ポート)の数を指定することで、使用するHiveシステムのメタストアのロケーションを入力します。このHiveシステムにHAメタストアが定義されている場合は、[Enable high availability] (高可用性の有効化)チェックボックスをオンにして、表示されるフィールドに複数のリモートメタストアサービスのURIを入力し、それぞれをコンマ(、)で区切ります。

Kerberos認証の使用

Keroberosセキュリティを実行しているHiveメタストアにアクセスする場合は、このチェックボックスを選択します。

次に、使用するクラスターのhive-site.xmlファイルで定義済みのHiveのプリンシパルを入力します。

[Hive principal] (Hiveプリンシパル)hive.metastore.kerberos.principalの値を使用します。これはHiveメタストアのサービスプリンシパルです。

[Force MapR Ticket authentication] (MapRチケット認証の強制)

このクラスターが5.0.0バージョン以上のMapRクラスターである場合、セキュリティ対応MapRへの接続に記載の説明に従って、MapRチケット認証設定を追加または代替として設定できます。

この設定により、ジョブで定義されたユーザー名用の新しいMapRセキュリティチケットが実行ごとに生成されます。同じユーザー名に対して発行された既存のチケットを再使用する必要がある場合は、[Force MapR ticket authentication] ()チェックボックスと[Use Kerberos authentication] ()チェックボックスをオフにすると、そのチケットを即座に自動的に見つけることができます。

使用方法

使用ルール

このコンポーネントは、他のコンポーネントに接続せずに使用されます。

設定がランタイムにジョブ全体で使用されるように、tHiveConfiguration、および実行するサブジョブに関わるHiveを同じジョブにドロップする必要があります。

このコンポーネントは、所属するSpark Streamingコンポーネントのパレットと共に、Sparkストリーミングジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメントのシナリオでは、[Standard] (標準)ジョブ、つまり従来の Talend データ統合ジョブだけを扱います。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark Configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • オンプレミスのディストリビューションを使用する場合は、クラスターで使用されているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): tHDFSConfigurationまたはtS3Configurationなど、クラスターで使用されているファイルシステムに対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。