Sparkが使用するファイルシステムに接続を設定

Sparkが使用するファイルシステムに接続を設定 - 7.3

Talend Real-Time Big Data Platform 入門ガイド

Version

7.3

Language

日本語

Operating system

Real-Time Big Data Platform

Product

Talend Real-Time Big Data Platform

Module

Talend Administration Center

Talend DQ Portal

Talend Installer

Talend Runtime

Talend Studio

Content

インストールとアップグレード

ジョブデザインと開発

データクオリティとプレパレーション > データクレンジング

データクオリティとプレパレーション > データプロファイリング

Last publication date

2023-07-24

Google DataprocまたはHDInsightを使用している場合は、このセクションをスキップしてください。これら2つのディストリビューションの場合、この接続は[Spark configuration] (Spark設定)タブで設定するためです。

Google Cloud Dataprocをご覧ください。
Microsoft HDInsightをご覧ください。

手順

tHDFSConfigurationをダブルクリックして、その[Component] (コンポーネント)ビューを開きます。

Sparkはこのコンポーネントを使って、ジョブに依存するjarファイルの転送先HDFSシステムに接続します。
HDFS接続メタデータを[Repository] (リポジトリー)内の[Hadoop cluster] (Hadoopクラスター)ノードの下で定義した場合は、[Property type] (リポジトリータイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックして、[Repository content] (リポジトリーのコンテンツ)ウィザードから定義済みのHDFS接続を選択します。

再利用可能なHDFS接続の設定に関する詳細は、Talend Data Fabric Studioユーザーガイドをご覧ください。

この手順を完了すると、tHDFSConfigurationの設定に関する以下の手順はスキップできます。必須フィールドはすべて自動入力されているためです。
[Version] (バージョン)エリアで、接続する必要のあるHadoopディストリビューションとそのバージョンを選択します。
[NameNode URI]フィールドで、クラスターのNameNodeサービスをホストするマシンのロケーションを入力します。 WebHDFSを使用している場合、ロケーションはwebhdfs://masternode:portnumberとなります。WebHDFS with SSLはまだサポートされていません。
[Username] (ユーザー名)フィールドで、使用するHDFSシステムへの接続に使う認証情報を入力します。ユーザー名は、[Spark configuration] (Spark設定)タブで入力したユーザー名と同じにする必要があります。