DBFS(Databricks File System)にファイルをアップロード - 8.0

Talend Data Fabric 入門ガイド

Version
8.0
Language
日本語
Operating system
Data Fabric
Product
Talend Data Fabric
Module
Talend Administration Center
Talend Installer
Talend Runtime
Talend Studio
Content
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
Last publication date
2024-04-15

ファイルをDBFSにアップロードすると、ビッグデータジョブによる読み取りと処理が可能になります。DBFSは、この例で使用されるビッグデータファイルシステムです。

この手順では、DBFSシステムにデータを書き込むジョブを作成します。ユースケースに必要なファイルについては、このページの左パネルにある[Downloads] (ダウンロード)タブからtdf_gettingstarted_source_files.zipをダウンロードします。

始める前に

  • Talend Studioを起動し、 Integration パースペクティブを開いていること。

手順

  1. [Repository] (リポジトリー)ツリービューで、[Job Designs] (ジョブデザイン)ノードを展開し、[Standard] (標準)ノードを右クリックして、コンテキストメニューから[Create folder] (フォルダーの作成)を選択します。
  2. [New Folder] (新規フォルダー)ウィザードでジョブフォルダーにgetting_startedという名前を付け、[Finish] (終了)をクリックしてフォルダーを作成します。
  3. getting_startedフォルダーを右クリックし、コンテキストメニューから[Create Standard Job] (標準ジョブを作成) を選択します。
  4. [New Job] (新規ジョブ)ウィザードで、作成するジョブに名前を付け、必要に応じてその他の有用な情報を入力します。

    たとえば、[Name] (名前)フィールドにwrite_to_dbfsと入力します。

    ウィザードのこの手順では、[Name] (名前)が唯一の必須フィールドです。[Description] (説明)フィールドに入力した情報は、[Repository] (リポジトリー)ツリービュー内のジョブにマウスポインターを移動するとホバーテキストとして表示されます。

  5. [Finish] (終了)をクリックしてジョブを作成します。

    Talend Studioに空のジョブが開きます。

  6. この空のジョブのデザインスペースで、dbfsと入力して、DBFS関連のコンポーネントを検索します。表示されるコンポーネントリストで、tDBFSConnectionをダブルクリックして選択します。tDBFSConnectionがデザインスペースに追加されます。
  7. この操作を繰り返して、tDBFSPutをデザインスペースに追加します。
  8. Right click tDBFSConnection and from the contextual menu that is displayed, select Trigger > On Subjob Ok.

  9. tDBFSPutをクリックしてtDBFSConnectiontDBFSPutに接続します。
  10. tDBFSConnectionコンポーネントをダブルクリックし、[Component] (コンポーネント)ビューを開きます。

  11. [Endpoint] (エンドポイント)フィールドに、Azure DatabricksワークスペースのURLアドレスを入力します。このURLは、AzureポータルのDatabricksワークスペースページの[Overview] (概要)のブレードにあります。このURLは、https://adb-$workspaceId.$random.azuredatabricks.netといった形式になります。
  12. [Token] (トークン)フィールドの横にある[...]ボタンをクリックして、Databricksユーザーアカウントに生成された認証トークンを入力します。このトークンは、Databricksワークスペースの[User settings] (ユーザー設定)ページで生成または検索できます。詳細は、Azureドキュメンテーション
  13. tDBFSPutをダブルクリックして[Component] (コンポーネント)ビューを開きます。

  14. [Use an existing connection] (既存の接続を使用)を選択して、tDBFSConnectionで定義された接続情報を使用します。
  15. [Local directory] (ローカルディレクトリー)フィールドにパスを入力するか、またはDBFSにコピーするファイルが保存されているフォルダーに移動します。
  16. DBFS directoryフィールドで、DBFSのターゲットディレクトリーへのパスを入力して、ファイルを保存します。DatabricksドキュメントのFileStoreセクションによると、この場所はFileStoreフォルダーにすることをお勧めします。

    このディレクトリーが存在しない場合は、オンザフライで作成されます。

  17. [Overwrite file] (ファイルの上書き)ドロップダウンリストで[always](常に)を選択して、HDFS内のターゲットディレクトリーにファイルが既に存在する場合は上書きするようにします。
  18. コピーするファイルを選択する条件を定義するために、[Files] (ファイル)テーブルで[+]ボタンをクリックして1行を追加します。
  19. [Filemask] (ファイルマスク)カラムで二重引用符の間にアスタリスク(*)を入力し、tDBFSPutが、[Local directory] (ローカルディレクトリー)フィールドで指定したフォルダーに保存されているすべてのファイルを選択するようにします。
  20. [New name] (新しい名前)カラムは空のままにしておきます。すなわち、デフォルトの二重引用符はそのままにしておきます。これは、アップロード後もファイルの名前が変わらないようにするためです。
  21. [F6]を押してジョブを実行します。

    [Run] (実行)映画とその監督に関するファイルはこのビューに保存され、自動的に開かれます。ビューにはこのジョブの進行状況が示されます。

タスクの結果

ジョブが完了すると、アップロードしたファイルはDBFS内の指定したディレクトリーにあります。