Sparkが使用するファイルシステムへの接続の設定 - 7.1

Talend Data Fabric入門ガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio

Google DataprocまたはHDInsightを使用している場合は、このセクションをスキップして下さい。これら2つのディストリビューションの場合、この接続は[Spark configuration] (Spark設定)タブで設定するためです。

手順

  1. tHDFSConfigurationをダブルクリックして、その[Component] (コンポーネント)ビューを開きます。

    Sparkはこのコンポーネントを使って、ジョブに依存するjarファイルの転送先HDFSシステムに接続します。

  2. HDFS接続メタデータを[Repository] (リポジトリ)内の[Hadoop cluster] (Hadoopクラスター)ノードの下で定義した場合は、[Property type] (リポジトリタイプ)ドロップダウンリストから[Repository] (リポジトリ)を選択し、[...]ボタンをクリックして、[Repository content] (リポジトリのコンテンツ)ウィザードから定義済みのHDFS接続を選択します。

    例え

    再利用可能なHDFS接続の設定に関する詳細は、HDFSメタデータの一元化を参照して下さい。

    この手順を完了すると、tHDFSConfigurationの設定に関する以下の手順はスキップできます。必須フィールドはすべて自動入力されているためです。

  3. [Version] (バージョン)エリアで、接続する必要のあるHadoopディストリビューションとそのバージョンを選択します。
  4. [NameNode URI]フィールドで、クラスターのNameNodeサービスをホストするマシンのロケーションを入力します。 WebHDFSを使用している場合、ロケーションはwebhdfs://masternode:portnumberとなります。WebHDFS with SSLはまだサポートされていません。
  5. [Username] (ユーザー名)フィールドで、使用するHDFSシステムへの接続に使う認証情報を入力します。ユーザー名は、[Spark configuration] (Spark設定)タブで入力したユーザー名と同じにする必要があります。