Hadoop接続を設定

[Run] (実行)をクリックしてビューを開き、[Hadoop Configuration] (Hadoop設定)タブをクリックして、このジョブのHadoop接続を設定するためのビューを表示します。

[Property type] (プロパティタイプ)リストから、[Built-in] (組み込み)を選択します。[Repository] (リポジトリー)で使用する接続を作成している場合、[Repository] (リポジトリー)を選択すると、Studioではこのジョブの接続情報のセットが利用されます。

[Version] (バージョン)エリアで、使用するHadoopディストリビューションとそのバージョンを選択します。

Google Cloud Dataprocを使用する場合は、Google Cloud Dataprocをご覧ください。
使用するClouderaまたはHortonworksのバージョンが[Version] (バージョン)ドロップダウンリストに見つからない場合は、Studio内のダイナミックディストリビューションの設定を使用してディストリビューションに追加することもできます。
- ディストリビューションのバージョンリストに、[Builtin] (組み込み)というラベルの付いたバージョンがいくつかあります。Studioのリリース時に、これらのバージョンがダイナミックディストリビューションメカニズムを使用してTalendによって追加され、Studioと共に提供されました。これらはTalendによって認定され公式にサポートされているので、すぐに使用できます。
使用するClouderaのバージョンがこのドロップダウンリストに見つからない場合は、Studio内のダイナミックディストリビューションの設定を使用してディストリビューションに追加することもできます。
- ディストリビューションのバージョンリストに、[Builtin] (組み込み)というラベルの付いたバージョンがいくつかあります。Studioのリリース時に、これらのバージョンがダイナミックディストリビューションメカニズムを使用してTalendによって追加され、Studioと共に提供されました。これらはTalendによって認定され公式にサポートされているので、すぐに使用できます。
リストに対応するディストリビューションが見つからない場合は、[Custom] (カスタム)を選択し、Studioで公式にはサポートされていないHadoopディストリビューションに接続します。この[Custom] (カスタム)オプションを使用する手順の例は、カスタムHadoopディストリビューションへの接続を参照してください。

[Name node] (名前ノード)フィールドに、使用するディストリビューションのマスターノードのNameNodeを入力します。たとえば、hdfs://tal-qa113.talend.lan:8020のようにします。

MapRディストリビューションを使用する場合は、このフィールドのmaprfs:///をそのままにしておくだけで、MapRクライアントが接続の作成時に残りの部分を処理します。ただし、MapRクライアントが正しくインストールされている必要があります。MapRクライアントのセットアップ方法は、MapRドキュメントの次のリンクを参照してください:http://doc.mapr.com/display/MapR/Setting+Up+the+Client
WebHDFSを使用している場合、ロケーションはwebhdfs://masternode:portnumberとなります。WebHDFS with SSLはまだサポートされていません。

[Resource Manager] (リソースマネージャー)フィールドに、ディストリビューションの場所を入力します。たとえば、 tal-qa114.talend.lan:8050のようにします。

その後、使用するHadoopクラスターの構成に応じて以下のパラメーターを引き続き設定をできます (パラメーターのチェックボックスをオフのままにすると、実行時に、使用するHadoopクラスター内のこのパラメーターに関する設定は無視されます):
- [Set resourcemanager scheduler address] (リソースマネージャースケジューラーアドレスの設定)チェックボックスをオンにして、表示されたフィールドにスケジューラーアドレスを入力します。
- [Set jobhistory address] (ジョブ履歴アドレスの設定)チェックボックスをオンにして、使用するHadoopクラスターのJobHistoryサーバーの場所を入力します。これにより、現在のジョブのメトリックス情報がそのJobHistoryサーバーに保存されます。
- [Set staging directory] (ステージングディレクトリーの設定)チェックボックスをオンにして、実行プログラムで作成される一時ファイル用のHadoopクラスターで定義されたこのディレクトリーを入力します。一般的には、このディレクトリーはディストリビューションのyarn-site.xmlやmapred-site.xmlなどの設定ファイル内にあるyarn.app.mapreduce.am.staging-dirプロパティの下にあります。
- [Use datanode hostname] (データノードホスト名を使用)チェックボックスをオンにして、これらのホスト名によるデータノードへのアクセスをジョブに許可します。これは、実際にはdfs.client.use.datanode.hostnameプロパティをtrueに設定しています。S3Nファイルシステムに接続する場合、このチェックボックスをオンにする必要があります。

Kerberosセキュリティを実行しているHadoopクラスターにアクセスする場合は、このチェックボックスをオンにし、表示されるフィールドにネームノードとしてKerberosのプリンシパル名を入力します。これにより、ユーザー名を使って、Kerberosに保存された認証情報に対して認証を実行できます。

このクラスターが5.0.0バージョン以上のMapRクラスターである場合、セキュリティ対応MapRに接続に記載の説明に従って、MapRチケット認証設定を追加または代替として設定できます。

この設定により、ジョブで定義されたユーザー名用の新しいMapRセキュリティチケットが実行ごとに生成されます。同じユーザー名に対して発行された既存のチケットを再使用する必要がある場合は、[Force MapR ticket authentication] ()チェックボックスと[Use Kerberos authentication] ()チェックボックスをオフにすると、そのチケットを即座に自動的に見つけることができます。

また、このコンポーネントは、Map/Reduceの計算を実行するため、対応するフィールドのディストリビューションに応じてジョブ履歴サーバーやリソースマネージャーまたはジョブトラッカーなど関連するサービスを認証する必要があります。これらのプリンシパルはディストリビューションの設定ファイルの中にあります。たとえばCDH4ディストリビューションでは、リソースマネージャーのプリンシパルはyarn-site.xmlファイルで設定され、ジョブ履歴のプリンシパルはmapred-site.xmlファイルで設定されています。

ログインにKerberosのkeytabファイルが必要な場合は、[Use a keytab to authenticate] (認証にkeytabを使用)チェックボックスをオンにします。keytabファイルには、Kerberosのプリンシパルと暗号化されたキーのペアが含まれています。使用するプリンシパルを[Principal] (プリンシパル)フィールドに入力し、keytabファイルへのアクセスパスを[Keytab] フィールドに入力します。このkeytabファイルは、ジョブが実際に実行されているマシン、たとえば、Talend Jobserverに保存する必要があります。

keytabが有効なジョブは、プリンシパルに任命されたユーザーでなくても実行できますが、使用するkeytabファイルの読み取り権限が必要です。たとえばuser1というユーザー名でジョブを実行し、使用するプリンシパルがguestの場合、user1に使用するキータブファイルの読み取り権限があることをご確認ください。

[User name] (ユーザー名)フィールドに、ディストリビューションにログインするためのユーザー名を入力します。このフィールドを空白のままにすると、Studioをホストするマシンのユーザー名が使用されます。

[Temp folder] (一時フォルダー)フィールドで、Map/Reduce処理中に生成される一時ファイルを保存するフォルダーのHDFSパスを入力します。

サーバーのパス区切りのデフォルト値はそのままにしておきます。区切りをコロン(:)以外のHadoopディストリビューションのホストマシンで使用されているPATH変数またはその他の単語に変更している場合は除きます。その場合、値はホストで使用しているものに変更する必要があります。

これらの一時ファイルを保持する場合を除き、[Clear temporary folder] (一時フォルダーを削除する)チェックボックスをオンにしたままにします。

[Compress intermediate map output to reduce network traffic] (中間マップ出力を圧縮してネットワークトラフィックを削減)チェックボックスをオンにしたままにしておくと、マッパータスクパーティションを複数のリデューサーに転送する時間を短縮できます。

ただし、ジョブ内のデータ転送がごくわずかな場合は、この圧縮によって余分なCPUリソースが消費されないようにこのチェックボックスをオフにして、圧縮ステップを無効にすることをお勧めします。

カスタムHadoopプロパティを使用する必要がある場合、[Hadoop properties] (Hadoopプロパティ)テーブルにカスタマイズしたプロパティを入力します。その後、ランタイムにStudioがHadoopのエンジンに使用するデフォルトのプロパティが、カスタマイズした設定に上書きされます。

Hadoopで必要なプロパティについて詳しくは、http://hadoop.apache.orgに記載されているApacheのHadoopについてのドキュメンテーションを参照するか、使用するHadoopディストリビューションのドキュメンテーションをご覧ください。

HDFSの透過的暗号化をクラスターで有効にしている場合は、[Setup HDFS encryption configurations] (HDFS暗号化設定)チェックボックスをオンにし、[HDFS encryption key provider] (HDFS暗号化キープロバイダー)フィールドが表示されたら、KMSプロキシのロケーションを入力します。

HDFSの透過的暗号化とそのKMSプロキシの詳細は、Transparent Encryption in HDFSをご覧ください。

[Set memory] (メモリのセット)チェックボックスをオンにしてHadoopシステムでの計算実行で適切なメモリ割り当てをセットし、マッピングを調整して計算を減らすことができます。

設定するメモリパラメーターは[Map (in Mb)]、[Reduce (in Mb)]、[ApplicationMaster (in Mb)]です。これらのフィールドは、MapとReduceの計算、およびYARNのApplicationMasterに動的にメモリを割り当てることができます。

リソースマネージャーやそのスケジューラーとアプリケーションマスターの詳細は、http://hortonworks.com/blog/apache-hadoop-yarn-concepts-and-applications/など、YARNのドキュメンテーションをご覧ください。

YARNやMapReduceのメモリの設定をどのように決めるかについては、使用しているディストリビューションのドキュメンテーションをご覧ください。たとえば、Hortonworksの場合は、http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.6.0/bk_installing_manually_book/content/rpm-chap1-11.htmlをご覧ください。

Cloudera V5.5+をお使いの場合は、[Use Cloudera Navigator] (Cloudera Navigatorの使用)チェックボックスをオンにして、ディストリビューションのCloudera ナビゲーターが、コンポーネント間のスキーマの変更を含め、ジョブ来歴をコンポーネントレベルまでトレースできるようにすることが可能です。

このオプションを有効にしたら、以下のパラメーターを設定する必要があります。

[Username] (ユーザー名)および[Password] (パスワード): Cloudera Navigatorへの接続に使用する認証情報です。
Cloudera Navigator URL: Cloudera Navigatorの接続先を入力します。
[Cloudera Navigator Metadata URL] (Cloudera NavigatorメタデータURL): ナビゲーターメタデータの場所を入力します。
[Activate the autocommit option] (自動コミットオプションの有効化): このジョブの実行の最後にCloudera Navigatorが現在のジョブの来歴を生成するよう設定する場合は、このチェックボックスを選択します。

このオプションを指定すると、Cloudera NavigatorはHDFSファイルとディレクトリー、HiveクエリーまたはPigスクリプトなど、利用可能なすべてのエンティティの来歴を生成するように強制されるため、ジョブの実行速度の低下を招くことから本番環境には推奨されません。
[Kill the Job if Cloudera Navigator fails] (Cloudera Navigatorにエラーが発生したらジョブを強制終了): このチェックボックスを選択して、Cloudera Navigatorへの接続が失敗した時にジョブの実行を停止します。

それ以外の場合は、解除してジョブが実行を継続できるようにしてください。
Disable SSL validation (SSL認証を無効化): SSL認証プロセスを経ずにCloudera Navigatorに接続することをジョブに指示する場合は、このチェックボックスを選択します。

この機能は、ジョブのテストを容易にするためのものですが、プロダクションクラスターで使用することは推奨されません。

Hortonworks Data Platform V2.4.0以降をお使いで、クラスターにAtlasがインストール済みの場合は、[Use Atlas] (Atlasを使用)チェックボックスをオンにして、コンポーネント間のスキーマの変更を含め、ジョブ来歴をコンポーネントレベルまで有効にできます。

このオプションを有効にしたら、以下のパラメーターを設定する必要があります。

Atlas URL: Atlasの接続先を入力します。http://name_of_your_atlas_node:portとなる場合がほとんどです。
[Die on error] (エラー発生時に強制終了): Atlasへの接続の問題など、Atlas関連の問題が発生した場合にジョブの実行を停止する場合は、このチェックボックスを選択します。

それ以外の場合は、解除してジョブが実行を継続できるようにしてください。

[Username] (ユーザー名)および[Password] (パスワード)フィールドに、Atlasにアクセスするための認証情報を入力します。