Azure Data Lake Storageと連携するようにHDFSコンポーネントを設定する - 7.3

HDFS

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > サードパーティーシステム > ファイルコンポーネント > HDFS
データガバナンス > サードパーティーシステム > ファイルコンポーネント > HDFS
データクオリティとプレパレーション > サードパーティーシステム > ファイルコンポーネント > HDFS

手順

  1. tFixedFlowInputをダブルクリックして[Component] (コンポーネント)ビューを開き、ジョブにサンプルデータを提供します。

    使うサンプルデータには、idおよびnameという2つのカラムを持つ1つの行のみが含まれています。

  2. [Edit schema] (スキーマの編集)の横にある[...]ボタンをクリックし、スキーマエディターを開きます。
  3. [+]ボタンをクリックして2つのカラムを追加し、名前をidおよびnameに変更します。
  4. [OK]をクリックしてスキーマエディターを閉じ、スキーマを検証します。
  5. [Mode] (モード)エリアで[Use single table] (単一テーブルを使う)を選択します。

    idカラムとnameカラムが[Value] (値)テーブルに自動的に表示され、2つのスキーマ値の[Value] (値)カラムの二重引用符内に必要な値を入力できます。

  6. tHDFSOutputをダブルクリックして、その[Component] (コンポーネント)ビューを開きます。

    例え

  7. [Version] (バージョン)エリアで、使っているディストリビューションに応じてHortonworksまたはClouderaを選択します。Standardフレームワークでは、ADLSを備えたこれら2つのディストリビューションのみがHDFSコンポーネントでサポートされています。
  8. [Scheme] (スキーム)ドロップダウンリストからADLSを選択します。ADLS関連のパラメーターが[Component] (コンポーネント)ビューに表示されます。
  9. URIフィールドに、アプリケーションのNameNodeサービスを入力します。このサービスの場所は、実際にはData Lake Storeのアドレスです。

    たとえば、Data Lake Storageの名前がdata_lake_store_nameなら、使うNameNode URIはadl://data_lake_store_name.azuredatalakestore.netです。

  10. [Client ID] (クライアントID)フィールドと[Client key] (クライアントキー)フィールドに、開発中である現行のジョブがAzure Data Lake Storageへのアクセスに使うアプリケーションを登録する際に生成された認証IDと認証キーをそれぞれ入力します。

    使用するアプリケーションにAzure Data Lakeへのアクセス権があることを確認します。Azureでこのアプリケーションの[Required permissions] (必要な権限)ビューをチェックしてください。詳細は、AzureのドキュメンテーションであるAssign the Azure AD application to the Azure Data Lake Storage account file or folderを参照してください。

    このアプリケーションは、前の手順でAzure Data Lake Storageへのアクセス権を割り当てたアプリケーションである必要があります。

  11. [Token endpoint] (トークンエンドポイント)フィールドで、Azureポータルの[App registrations] (アプリの登録)ページの[Endpoints] (エンドポイント)リストから取得できるOAuth 2.0トークンエンドポイントをコピーして貼り付けます。
  12. [File name] (ファイル名) フィールドに、Azure Data Lake Storageにサンプルデータを保管するために使うディレクトリーを入力します。
  13. Action (アクション)ドロップダウンリストで、使用するディレクトリーがAzure Data Lake Storageにまだ存在しない場合は[Create] (作成)を、このフォルダーが既に存在する場合は[Overwrite] (上書き)をそれぞれ選択します。
  14. tHDFSInputについても同じ設定を行います。
  15. Windowsでジョブを実行する場合は、次の手順 に従って、winutils.exeプログラムをジョブに追加します。
  16. [F6]を押してジョブを実行します。