DBFS(Databricks File System)にファイルをアップロード - 8.0

Talend Open Studio for Big Data 入門ガイド

Version
8.0
Language
日本語 (日本)
EnrichDitaval
Open Studio for Big Data
Product
Talend Open Studio for Big Data
Module
Talend Studio
Content
インストールとアップグレード
ジョブデザインと開発

ファイルをDBFSにアップロードすると、ビッグデータジョブによる読み取りと処理が可能になります。DBFSは、この例で使用されるビッグデータファイルシステムです。

この手順では、DBFSシステムにデータを書き込むジョブを作成します。ユースケースに必要なファイルについては、このページの左パネルにあるhttps://help.talend.comで、[Downloads] (ダウンロード)タブからtos_bd_gettingstarted_source_files.zipをダウンロードします。

手順

  1. [Repository] (リポジトリー)ツリービューで、[Job Designs] (ジョブデザイン)ノードを右クリックして、コンテキストメニューから[Create folder] (フォルダーの作成)を選択します。
  2. [New Folder] (新規フォルダー)ウィザードでジョブフォルダーにgetting_startedという名前を付け、[Finish] (終了)をクリックしてフォルダーを作成します。
  3. getting_startedフォルダーを右クリックし、コンテキストメニューから[Create Job] (ジョブの作成)を選択します。
  4. [New Job] (新規ジョブ)ウィザードで、作成するジョブに名前を付け、必要に応じてその他の有用な情報を入力します。

    たとえば、[Name] (名前)フィールドにwrite_to_dbfsと入力します。

    ウィザードのこの手順では、[Name] (名前)が唯一の必須フィールドです。[Description] (説明)フィールドに入力した情報は、[Repository] (リポジトリー)ツリービュー内のジョブにマウスポインターを移動するとホバーテキストとして表示されます。

  5. [Finish] (終了)をクリックしてジョブを作成します。

    Studioに空のジョブが開きます。

  6. この空のジョブのデザインスペースで、dbfsと入力して、DBFS関連のコンポーネントを検索します。表示されるコンポーネントリストで、tDBFSConnectionをダブルクリックして選択します。tDBFSConnectionがデザインスペースに追加されます。
  7. この操作を繰り返して、tDBFSPutをデザインスペースに追加します。
  8. Right click tDBFSConnection and from the contextual menu that is displayed, select Trigger > On Subjob Ok.

    例え

  9. tDBFSPutをクリックしてtDBFSConnectiontDBFSPutに接続します。
  10. tDBFSConnectionコンポーネントをダブルクリックし、[Component] (コンポーネント)ビューを開きます。

    例え

  11. [Endpoint] (エンドポイント)フィールドに、Azure DatabricksワークスペースのURLアドレスを入力します。このURLは、AzureポータルのDatabricksワークスペースページの[Overview] (概要)のブレードにあります。このURLは、https://adb-$workspaceId.$random.azuredatabricks.netといった形式になります。
  12. [Token] (トークン)フィールドの横にある[...]ボタンをクリックして、Databricksユーザーアカウントに生成された認証トークンを入力します。このトークンは、Databricksワークスペースの[User settings] (ユーザー設定)ページで生成または検索できます。詳細は、Azureドキュメンテーション
  13. tDBFSPutをダブルクリックして[Component] (コンポーネント)ビューを開きます。

    例え

  14. [Use an existing connection] (既存の接続を使用)を選択して、tDBFSConnectionで定義された接続情報を使用します。
  15. [Local directory] (ローカルディレクトリー)フィールドにパスを入力するか、またはDBFSにコピーするファイルが保存されているフォルダーに移動します。
  16. DBFS directoryフィールドで、DBFSのターゲットディレクトリーへのパスを入力して、ファイルを保存します。DatabricksドキュメントのFileStoreセクションによると、この場所はFileStoreフォルダーにすることをお薦めします。

    このディレクトリーが存在しない場合は、オンザフライで作成されます。

  17. [Overwrite file] (ファイルの上書き)ドロップダウンリストで[always](常に)を選択して、HDFS内のターゲットディレクトリーにファイルが既に存在する場合は上書きするようにします。
  18. コピーするファイルを選択する条件を定義するために、[Files] (ファイル)テーブルで[+]ボタンをクリックして1行を追加します。
  19. [Filemask] (ファイルマスク)カラムで二重引用符の間にアスタリスク(*)を入力し、tDBFSPutが、[Local directory] (ローカルディレクトリー)フィールドで指定したフォルダーに保存されているすべてのファイルを選択するようにします。
  20. [New name] (新しい名前)カラムは空のままにしておきます。すなわち、デフォルトの二重引用符はそのままにしておきます。これは、アップロード後もファイルの名前が変わらないようにするためです。
  21. [F6]を押してジョブを実行します。

    [Run] (実行)映画とその監督に関するファイルはこのビューに保存され、自動的に開かれます。ビューにはこのジョブの進行状況が示されます。

タスクの結果

ジョブが完了すると、アップロードしたファイルはDBFS内の指定したディレクトリーにあります。