入力データの設定 - 7.3

Talend Data Fabric入門ガイド

author
Talend Documentation Team
EnrichVersion
7.3
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
DBFSからジョブにデータをロードするようにtFileInputDelimitedコンポーネントを設定します。

始める前に

手順

  1. [Repository] (リポジトリ)[Metadata] (メタデータ)ノードの下で、[File delimited] (ファイル区切り)ノードに続いてmoviesファイル接続ノードとその子ノードを展開して、moviesスキーマメタデータノードを表示します。
  2. このスキーマメタデータノードをダブルクリックして、ウィザードを開きます。
  3. ボタンをクリックして、スキーマをローカルディレクトリーにエクスポートします。
  4. movie tFileInputDelimitedコンポーネントをダブルクリックして[Component] (コンポーネント)ビューを開きます。
  5. [Define a storage configuration component] (ストレージの設定コンポーネントを定義)チェックボックスがクリアされていることを確認します。これにより、このコンポーネントは、Sparkクラスターのファイルシステムからデータを直接読み取り、後で[Spark configuration] (Spark設定)タブで定義できます。 このシナリオでは、このファイルシステムはDBFSです。
  6. [Edit schema] (スキーマの編集)をクリックしてスキーマのエディターを開き、ボタンをクリックして、以前に[Repository] (リポジトリ)[File delimited] (ファイル区切り)メタデータからエクスポートした映画データのスキーマをインポートします。
  7. [Folder/File] (フォルダー/ファイル)フィールドで、DBFSに保存されている映画データを指すパスを入力します。
  8. [Header] (ヘッダー)フィールドで、引用符をつけずに1と入力します。これにより、コンポーネントはデータの最初の行をデータヘッダーとして認識できます。
  9. director tFileInputDelimitedコンポーネントをダブルクリックし、その[Component] (コンポーネント)ビューを開きます。
  10. 前の手順で説明したのと同じ理由で、[Define a storage configuration component] (ストレージの設定コンポーネントを定義)チェックボックスがクリアされていることを確認します。
  11. [Edit schema] (スキーマの編集)の横の[...]ボタンをクリックし、スキーマエディターを開きます。
  12. [+]ボタンを2回クリックして2つの行を追加し、[Column] (カラム)カラムで名前をそれぞれIDNameに変更します。
  13. [OK]をクリックしてこれらの変更を確認し、ポップアップ表示されるダイアログボックスで求められるプロパゲーションを承認します。
  14. [Folder/File] (フォルダー/ファイル)フィールドで、ディレクターデータが保存されているディレクトリーを入力します。DBFS(Databricks File System)へのファイルのアップロードで説明しているように、このデータは/FileStore/ychen/movie_library/directors.txtに書き込まれています。
  15. [Field separator] (フィールド区切り)フィールドにコンマ(,)を入力します。ディレクターデータではこれが区切り文字として使用されているためです。

タスクの結果

これで、動画データとディレクターデータをジョブにロードするように入力コンポーネントが設定されました。