DBFS(Databricks File System)にファイルをアップロード - 8.0

Talend Data Fabric 入門ガイド

Version
8.0
Language
日本語 (日本)
EnrichDitaval
Data Fabric
Product
Talend Data Fabric
Module
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
Content
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング

ファイルをDBFSにアップロードすると、ビッグデータジョブによる読み取りと処理が可能になります。DBFSは、この例で使用されるビッグデータファイルシステムです。

この手順では、DBFSシステムにデータを書き込むジョブを作成します。ユースケースに必要なファイルについては、このページの左パネルにあるhttps://help.talend.comで、[Downloads] (ダウンロード)タブからtdf_gettingstarted_source_files.zipをダウンロードします。

始める前に

  • Talend Studioを起動し、 Integration パースペクティブを開いていること。

手順

  1. [Repository] (リポジトリー)ツリービューで、[Job Designs] (ジョブデザイン)ノードを展開し、[Standard] (標準)ノードを右クリックして、コンテキストメニューから[Create folder] (フォルダーの作成)を選択します。
  2. [New Folder] (新規フォルダー)ウィザードでジョブフォルダーにgetting_startedという名前を付け、[Finish] (終了)をクリックしてフォルダーを作成します。
  3. getting_startedフォルダーを右クリックし、コンテキストメニューから[Create Standard Job] (標準ジョブの作成)を選択します。
  4. [New Job] (新規ジョブ)ウィザードで、作成するジョブに名前を付け、必要に応じてその他の有用な情報を入力します。

    たとえば、[Name] (名前)フィールドにwrite_to_dbfsと入力します。

    ウィザードのこの手順では、[Name] (名前)が唯一の必須フィールドです。[Description] (説明)フィールドに入力した情報は、[Repository] (リポジトリー)ツリービュー内のジョブにマウスポインターを移動するとホバーテキストとして表示されます。

  5. [Finish] (終了)をクリックしてジョブを作成します。

    Studioに空のジョブが開きます。

  6. この空のジョブのデザインスペースで、dbfsと入力して、DBFS関連のコンポーネントを検索します。表示されるコンポーネントリストで、tDBFSConnectionをダブルクリックして選択します。tDBFSConnectionがデザインスペースに追加されます。
  7. この操作を繰り返して、tDBFSPutをデザインスペースに追加します。
  8. Right click tDBFSConnection and from the contextual menu that is displayed, select Trigger > On Subjob Ok.

    例え

  9. tDBFSPutをクリックしてtDBFSConnectiontDBFSPutに接続します。
  10. tDBFSConnectionコンポーネントをダブルクリックし、[Component] (コンポーネント)ビューを開きます。

    例え

  11. [Endpoint] (エンドポイント)フィールドに、Azure DatabricksワークスペースのURLアドレスを入力します。このURLは、AzureポータルのDatabricksワークスペースページの[Overview] (概要)のブレードにあります。このURLは、https://adb-$workspaceId.$random.azuredatabricks.netといった形式になります。
  12. [Token] (トークン)フィールドの横にある[...]ボタンをクリックして、Databricksユーザーアカウントに生成された認証トークンを入力します。このトークンは、Databricksワークスペースの[User settings] (ユーザー設定)ページで生成または検索できます。詳細は、Azureドキュメンテーション
  13. tDBFSPutをダブルクリックして[Component] (コンポーネント)ビューを開きます。

    例え

  14. [Use an existing connection] (既存の接続を使用)を選択して、tDBFSConnectionで定義された接続情報を使用します。
  15. [Local directory] (ローカルディレクトリー)フィールドにパスを入力するか、またはDBFSにコピーするファイルが保存されているフォルダーに移動します。
  16. DBFS directoryフィールドで、DBFSのターゲットディレクトリーへのパスを入力して、ファイルを保存します。DatabricksドキュメントのFileStoreセクションによると、この場所はFileStoreフォルダーにすることをお薦めします。

    このディレクトリーが存在しない場合は、オンザフライで作成されます。

  17. [Overwrite file] (ファイルの上書き)ドロップダウンリストで[always](常に)を選択して、HDFS内のターゲットディレクトリーにファイルが既に存在する場合は上書きするようにします。
  18. コピーするファイルを選択する条件を定義するために、[Files] (ファイル)テーブルで[+]ボタンをクリックして1行を追加します。
  19. [Filemask] (ファイルマスク)カラムで二重引用符の間にアスタリスク(*)を入力し、tDBFSPutが、[Local directory] (ローカルディレクトリー)フィールドで指定したフォルダーに保存されているすべてのファイルを選択するようにします。
  20. [New name] (新しい名前)カラムは空のままにしておきます。すなわち、デフォルトの二重引用符はそのままにしておきます。これは、アップロード後もファイルの名前が変わらないようにするためです。
  21. [F6]を押してジョブを実行します。

    [Run] (実行)映画とその監督に関するファイルはこのビューに保存され、自動的に開かれます。ビューにはこのジョブの進行状況が示されます。

タスクの結果

ジョブが完了すると、アップロードしたファイルはDBFS内の指定したディレクトリーにあります。