Sparkが使用するファイルシステムへの接続の設定 - 8.0

Talend Data Fabric 入門ガイド

Version
8.0
Language
日本語 (日本)
EnrichDitaval
Data Fabric
Product
Talend Data Fabric
Module
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
Content
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング

Google DataprocまたはHDInsightを使用している場合は、このセクションをスキップしてください。これら2つのディストリビューションの場合、この接続は[Spark configuration] (Spark設定)タブで設定するためです。

手順

  1. tHDFSConfigurationをダブルクリックして、その[Component] (コンポーネント)ビューを開きます。

    Sparkはこのコンポーネントを使って、ジョブに依存するjarファイルの転送先HDFSシステムに接続します。

  2. HDFS接続メタデータを[Repository] (リポジトリー)内の[Hadoop cluster] (Hadoopクラスター)ノードの下で定義した場合は、[Property type] (リポジトリータイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックして、[Repository content] (リポジトリーのコンテンツ)ウィザードから定義済みのHDFS接続を選択します。

    再利用可能なHDFS接続の設定に関する詳細は、Talend Data Fabric Studioユーザーガイドを参照してください。

    この手順を完了すると、tHDFSConfigurationの設定に関する以下の手順はスキップできます。必須フィールドはすべて自動入力されているためです。

  3. [Version] (バージョン)エリアで、接続する必要のあるHadoopディストリビューションとそのバージョンを選択します。
  4. [NameNode URI]フィールドで、クラスターのNameNodeサービスをホストするマシンのロケーションを入力します。 WebHDFSを使用している場合、ロケーションはwebhdfs://masternode:portnumberとなります。WebHDFS with SSLはまだサポートされていません。
  5. [Username] (ユーザー名)フィールドで、使用するHDFSシステムへの接続に使う認証情報を入力します。ユーザー名は、[Spark configuration] (Spark設定)タブで入力したユーザー名と同じにする必要があります。