入力データの読み取り方法を設定 - 8.0

Talend Open Studio for Big Data 入門ガイド

Version
8.0
Language
日本語 (日本)
EnrichDitaval
Open Studio for Big Data
Product
Talend Open Studio for Big Data
Module
Talend Studio
Content
インストールとアップグレード
ジョブデザインと開発
DBFSからジョブにデータをロードするようにDBFSコンポーネントおよび2つのtFileInputDelimitedコンポーネントを設定します。

始める前に

手順

  1. tDBFSConnectionコンポーネントをダブルクリックし、[Component] (コンポーネント)ビューを開きます。

    例え

  2. [Endpoint] (エンドポイント)フィールドに、Azure DatabricksワークスペースのURLアドレスを入力します。このURLは、AzureポータルのDatabricksワークスペースページの[Overview] (概要)のブレードにあります。このURLは、https://adb-$workspaceId.$random.azuredatabricks.netといった形式になります。
  3. [Token] (トークン)フィールドの横にある[...]ボタンをクリックして、Databricksユーザーアカウントに生成された認証トークンを入力します。このトークンは、Databricksワークスペースの[User settings] (ユーザー設定)ページで生成または検索できます。詳細は、Azureドキュメンテーション
  4. tDBFSGetをダブルクリックして[Component] (コンポーネント)ビューを開きます。

    例え

  5. [Use an existing connection] (既存の接続を使用)を選択して、tDBFSConnectionで定義された接続情報を使用します。
  6. [DBFS directory] (DBFSディレクトリー)フィールドに、映画とその監督に関するファイルが保存されているDBFSのディレクトリーへのパスを入力します。
  7. [Local directory] (ローカルディレクトリー)フィールドにパスを入力するか、またはDBFSからダウンロードするファイルが保存されているフォルダーに移動します。

    このディレクトリーが存在しない場合は、オンザフライで作成されます。

  8. [Overwrite file] (ファイルの上書き)ドロップダウンリストで[always](常に)を選択して、ローカルファイルシステムS内のターゲットディレクトリーにファイルが既に存在する場合は上書きするようにします。
  9. コピーするファイルを選択する条件を定義するために、[Files] (ファイル)テーブルで[+]ボタンをクリックして1行を追加します。
  10. [Filemask] (ファイルマスク)カラムで二重引用符の間にアスタリスク(*)を入力し、tDBFSGetが、[Local directory] (ローカルディレクトリー)フィールドで指定したフォルダーに保存されているすべてのファイルを選択するようにします。
  11. [New name] (新しい名前)カラムは空のままにしておきます。すなわち、デフォルトの二重引用符はそのままにしておきます。これは、アップロード後もファイルの名前が変わらないようにするためです。
  12. [Repository] (リポジトリー)[Metadata] (メタデータ)ノードの下の[File delimited] (ファイル区切り)ノードを展開して、動画メタデータを準備で説明したように設定した moviesスキーマメタデータノードを表示します。
  13. ジョブのワークスペースで、このスキーマメタデータノードをmovie tFileInputDelimitedコンポーネントにドロップします。
  14. movie tFileInputDelimitedコンポーネントをダブルクリックして[Component] (コンポーネント)ビューを開きます。

    このtFileInputDelimitedは、映画メタデータを[Repository] (リポジトリー)から自動的に再利用し、関連するパラメーターをその[Basic settings] (基本設定)ビューで定義しています。

  15. [File name/Stream] (ファイル名/ストリーム)フィールドをクリックして[Edit parameter using repository] (リポジトリーを使用してパラメーターを編集)ダイアログボックスを開き、フィールド区切りを更新します。
    tFileInputDelimitedでは[File delimited] (ファイル区切り)メタデータ用に定義したデフォルトのファイルのロケーションを再利用しています。このファイルをDBFSからダウンロードしたディレクトリーからmovieファイルを読み取るには、このファイルを変更する必要があります。
  16. [Change to built-in property] (組み込みプロパティに変更)を選択し、[OK]をクリックして選択を確定します。
    [File name/Stream] (ファイル名/ストリーム)フィールドが編集可能になります。
  17. DBFSからダウンロードしたmovieファイルが保存されているディレクトリーを入力します
  18. director tFileInputDelimitedコンポーネントをダブルクリックし、その[Component] (コンポーネント)ビューを開きます。
  19. [Edit schema] (スキーマを編集)の横の[...]ボタンをクリックし、スキーマエディターを開きます。
  20. [+]ボタンを2回クリックして2つの行を追加し、[Column] (カラム)カラムで名前をそれぞれIDNameに変更します。
  21. [OK]をクリックしてこれらの変更を確認し、ポップアップ表示されるダイアログボックスで求められるプロパゲーションを承認します。
  22. [File name/Stream] (ファイル名/ストリーム)フィールドに、映画監督に関するデータが保存されているディレクトリーを入力します。
  23. [Field separator] (フィールド区切り)フィールドで、二重引用符の間にコンマ(;)を入力します。

タスクの結果

これで、映画データと監督データをジョブにロードするようにtFileInputDelimited コンポーネントが設定されました。