入力データを設定 - 8.0

Talend Data Fabric 入門ガイド

Version
8.0
Language
日本語 (日本)
EnrichDitaval
Data Fabric
Product
Talend Data Fabric
Module
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
Content
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
DBFSからジョブにデータをロードするようにtFileInputDelimitedコンポーネントを設定します。

始める前に

手順

  1. [Repository] (リポジトリー)[Metadata] (メタデータ)ノードの下で、[File delimited] (ファイル区切り)ノードに続いてmoviesファイル接続ノードとその子ノードを展開して、moviesスキーマメタデータノードを表示します。
  2. このスキーマメタデータノードをダブルクリックして、ウィザードを開きます。
  3. ボタンをクリックして、スキーマをローカルディレクトリーにエクスポートします。
  4. movie tFileInputDelimitedコンポーネントをダブルクリックして[Component] (コンポーネント)ビューを開きます。
  5. [Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスがクリアされていることを確認します。これにより、このコンポーネントは、Sparkクラスターのファイルシステムからデータを直接読み取り、後で[Spark configuration] (Spark設定)タブで定義できます。 このシナリオでは、このファイルシステムはDBFSです。
  6. [Edit schema] (スキーマを編集)をクリックしてスキーマのエディターを開き、ボタンをクリックして、以前に[Repository] (リポジトリー)[File delimited] (ファイル区切り)メタデータからエクスポートした映画データのスキーマをインポートします。
  7. [Folder/File] (フォルダー/ファイル)フィールドで、DBFSに保存されている映画データを指すパスを入力します。
  8. [Header] (ヘッダー)フィールドで、引用符をつけずに1と入力します。これにより、コンポーネントはデータの最初の行をデータヘッダーとして認識できます。
  9. director tFileInputDelimitedコンポーネントをダブルクリックし、その[Component] (コンポーネント)ビューを開きます。
  10. 前の手順で説明したのと同じ理由で、[Define a storage configuration component] (ストレージ設定コンポーネントを定義)チェックボックスがクリアされていることを確認します。
  11. [Edit schema] (スキーマを編集)の横の[...]ボタンをクリックし、スキーマエディターを開きます。
  12. [+]ボタンを2回クリックして2つの行を追加し、[Column] (カラム)カラムで名前をそれぞれIDNameに変更します。
  13. [OK]をクリックしてこれらの変更を確認し、ポップアップ表示されるダイアログボックスで求められるプロパゲーションを承認します。
  14. [Folder/File] (フォルダー/ファイル)フィールドで、ディレクターデータが保存されているディレクトリーを入力します。DBFS(Databricks File System)にファイルをアップロードで説明しているように、このデータは/FileStore/ychen/movie_library/directors.txtに書き込まれています。
  15. [Field separator] (フィールド区切り)フィールドにコンマ(,)を入力します。ディレクターデータではこれが区切り文字として使用されているためです。

タスクの結果

これで、動画データとディレクターデータをジョブにロードするように入力コンポーネントが設定されました。