Kerberosで保護されたHiveデータセットのHDFSへのエクスポート

Kerberos Cloudera環境へのHiveデータセットのエクスポートを有効にする場合は、Spark Job Serverの設定ファイルを編集する必要があります。

重要: クラスターにあるどのワーカーからもHDFSへの認証に使用するkeytabファイルにアクセスできることをご確認ください。

手順

<sjs_path>/jobserver_gss.confファイルを作成し、次の設定パラメーターを追加します:

com.sun.security.jgss.initiate {
com.sun.security.auth.module.Krb5LoginModule required
useTicketCache=false
doNotPrompt=true
useKeyTab=true
keyTab="/path/to/the/keytab/keytab_file.keytab"
principal="your@principalHere"
debug=true;
};

<sjs_path>/manager_start.shファイルでこれらのパラメータを次の値で設定し、先ほど作成した <sjs_path>/jobserver_gss.confファイルを参照します:

KRB5_OPTS="-Djava.security.auth.login.config=jobserver_gss.conf
 -Djava.security.krb5.debug=true
 -Djava.security.krb5.conf=/path/to/krb5.conf
 -Djavax.security.auth.useSubjectCredsOnly=false"

 --conf "spark.executor.extraJavaOptions=$LOGGING_OPTS $KRB5_OPTS"
 --conf "spark.yarn.dist.files=/path/to/jobserver_gss.conf"
 --proxy-user $4
 --driver-java-options "$GC_OPTS $JAVA_OPTS $LOGGING_OPTS $CONFIG_OVERRIDES $JDBC_PROPERTIES $KRB5_OPTS"

Talend Data Preparationでデータセットをインポートする場合、Hiveへの接続に使用するJDBC URLは次のモデルに従う必要があります:
jdbc:hive2://host:10000/default;principal=<your_principal>
Hiveドライバーが含まれている<components_catalog_path>/config/jdbc_config.jsonファイルをSpark Job Serverのインストールフォルダーにコピーします。
<components_catalog_path>/.m2フォルダーから<sjs_path>/datastreams-depsフォルダーに.jarファイルをコピーします。

タスクの結果

以上で、HiveデータセットをHDFSにエクスポートできるようになります。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。

こちらにフィードバックをお寄せください