ファイルをDBFSにアップロードすると、ビッグデータジョブによる読み取りと処理が可能になります。DBFSは、この例で使用されるビッグデータファイルシステムです。
この手順では、DBFSシステムにデータを書き込むジョブを作成します。ユースケースに必要なファイルについては、このページの左パネルにあるhttps://help.talend.comで、[Downloads] (ダウンロード)タブからtprtbd_gettingstarted_source_files.zipをダウンロードします。
手順
-
[Repository] (リポジトリー)ツリービューで、[Job Designs] (ジョブデザイン)ノードを展開し、[Standard] (標準)ノードを右クリックして、コンテキストメニューから[Create folder] (フォルダーの作成)を選択します。
-
[New Folder] (新規フォルダー)ウィザードでジョブフォルダーにgetting_startedという名前を付け、[Finish] (終了)をクリックしてフォルダーを作成します。
-
getting_startedフォルダーを右クリックし、コンテキストメニューから[Create Standard Job] (標準ジョブを作成) を選択します。
-
[New Job] (新規ジョブ)ウィザードで、作成するジョブに名前を付け、必要に応じてその他の有用な情報を入力します。
たとえば、[Name] (名前)フィールドにwrite_to_dbfsと入力します。
ウィザードのこの手順では、[Name] (名前)が唯一の必須フィールドです。[Description] (説明)フィールドに入力した情報は、[Repository] (リポジトリー)ツリービュー内のジョブにマウスポインターを移動するとホバーテキストとして表示されます。
-
[Finish] (終了)をクリックしてジョブを作成します。
-
この空のジョブのデザインスペースで、dbfsと入力して、DBFS関連のコンポーネントを検索します。表示されるコンポーネントリストで、tDBFSConnectionをダブルクリックして選択します。tDBFSConnectionがデザインスペースに追加されます。
-
この操作を繰り返して、tDBFSPutをデザインスペースに追加します。
-
Right click tDBFSConnection and from the contextual menu that is displayed, select .
例
-
tDBFSPutをクリックしてtDBFSConnectionをtDBFSPutに接続します。
-
tDBFSConnectionコンポーネントをダブルクリックし、[Component] (コンポーネント)ビューを開きます。
例
-
[Endpoint] (エンドポイント)フィールドに、Azure DatabricksワークスペースのURLアドレスを入力します。このURLは、AzureポータルのDatabricksワークスペースページの[Overview] (概要)のブレードにあります。このURLは、https://adb-$workspaceId.$random.azuredatabricks.netといった形式になります。
-
[Token] (トークン)フィールドの横にある[...]ボタンをクリックして、Databricksユーザーアカウントに生成された認証トークンを入力します。このトークンは、Databricksワークスペースの[User settings] (ユーザー設定)ページで生成または検索できます。詳細は、Azureドキュメンテーション
-
tDBFSPutをダブルクリックして[Component] (コンポーネント)ビューを開きます。
例
-
[Use an existing connection] (既存の接続を使用)を選択して、tDBFSConnectionで定義された接続情報を使用します。
-
[Local directory] (ローカルディレクトリー)フィールドにパスを入力するか、またはDBFSにコピーするファイルが保存されているフォルダーに移動します。
-
DBFS directoryフィールドで、DBFSのターゲットディレクトリーへのパスを入力して、ファイルを保存します。DatabricksドキュメントのFileStoreセクションによると、この場所はFileStoreフォルダーにすることをお勧めします。
このディレクトリーが存在しない場合は、オンザフライで作成されます。
-
[Overwrite file] (ファイルの上書き)ドロップダウンリストで[always](常に)を選択して、HDFS内のターゲットディレクトリーにファイルが既に存在する場合は上書きするようにします。
-
コピーするファイルを選択する条件を定義するために、[Files] (ファイル)テーブルで[+]ボタンをクリックして1行を追加します。
-
[Filemask] (ファイルマスク)カラムで二重引用符の間にアスタリスク(*)を入力し、tDBFSPutが、[Local directory] (ローカルディレクトリー)フィールドで指定したフォルダーに保存されているすべてのファイルを選択するようにします。
-
[New name] (新しい名前)カラムは空のままにしておきます。すなわち、デフォルトの二重引用符はそのままにしておきます。これは、アップロード後もファイルの名前が変わらないようにするためです。
-
[F6]を押してジョブを実行します。
[Run] (実行)映画とその監督に関するファイルはこのビューに保存され、自動的に開かれます。ビューにはこのジョブの進行状況が示されます。
タスクの結果
ジョブが完了すると、アップロードしたファイルはDBFS内の指定したディレクトリーにあります。