メイン コンテンツをスキップする 補完的コンテンツへスキップ

Azure Data Lake Storageと連携するようにHDFSコンポーネントを設定する

手順

  1. tFixedFlowInputをダブルクリックして[Component] (コンポーネント)ビューを開き、ジョブにサンプルデータを提供します。

    使うサンプルデータには、idおよびnameという2つのカラムを持つ1つの行のみが含まれています。

  2. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックし、スキーマエディターを開きます。
  3. [+]ボタンをクリックして2つのカラムを追加し、名前をidおよびnameに変更します。
  4. [OK]をクリックしてスキーマエディターを閉じ、スキーマを検証します。
  5. [Mode] (モード)エリアで[Use single table] (単一テーブルを使う)を選択します。

    idカラムとnameカラムが[Value] (値)テーブルに自動的に表示され、2つのスキーマ値の[Value] (値)カラムの二重引用符内に必要な値を入力できます。

  6. tHDFSOutputをダブルクリックして、その[Component] (コンポーネント)ビューを開きます。

  7. [Version] (バージョン)エリアで、使っているディストリビューションに応じてHortonworksまたはClouderaを選択します。標準フレームワークでは、ADLSを備えたこれら2つのディストリビューションのみがHDFSコンポーネントでサポートされています。
  8. [Scheme] (スキーム)ドロップダウンリストからADLSを選択します。ADLS関連のパラメーターが[Component] (コンポーネント)ビューに表示されます。
  9. URIフィールドに、アプリケーションのNameNodeサービスを入力します。このサービスの場所は、実際にはData Lake Storeのアドレスです。

    たとえば、Data Lake Storageの名前がdata_lake_store_nameなら、使うNameNode URIはadl://data_lake_store_name.azuredatalakestore.netです。

  10. [Client ID] (クライアントID)フィールドと[Client key] (クライアントキー)フィールドに、開発中である現行のジョブがAzure Data Lake Storageへのアクセスに使うアプリケーションを登録する際に生成された認証IDと認証キーをそれぞれ入力します。

    使用するアプリケーションにAzure Data Lakeへのアクセス権があることを確認します。Azureでこのアプリケーションの[Required permissions] (必要な権限)ビューをチェックしてください。詳細は、AzureのドキュメンテーションであるAssign the Azure AD application to the Azure Data Lake Storage account file or folderをご覧ください。

    このアプリケーションは、前のステップでAzure Data Lake Storageへのアクセス権を割り当てたアプリケーションである必要があります。

  11. [Token endpoint] (トークンエンドポイント)フィールドで、Azureポータルの[App registrations] (アプリの登録)ページの[Endpoints] (エンドポイント)リストから取得できるOAuth 2.0トークンエンドポイントをコピーして貼り付けます。
  12. [File name] (ファイル名) フィールドに、Azure Data Lake Storageにサンプルデータを保管するために使うディレクトリーを入力します。
  13. Action (アクション)ドロップダウンリストで、使用するディレクトリーがAzure Data Lake Storageにまだ存在しない場合は[Create] (作成)を、このフォルダーが既に存在する場合は[Overwrite] (上書き)をそれぞれ選択します。
  14. tHDFSInputについても同じ設定を行います。
  15. F6を押してジョブを実行します。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。