映画メタデータを準備 - 7.3

Talend Big Data 入門ガイド

Version
7.3
Language
日本語
Operating system
Big Data
Product
Talend Big Data
Module
Talend Administration Center
Talend Installer
Talend Runtime
Talend Studio
Content
インストールとアップグレード
ジョブデザインと開発
Last publication date
2023-07-24

このサンプルでは、ソースファイルmovies.csvのメタデータを[Repository] (リポジトリー)内で設定する方法を説明しています。リポジトリーメタデータは複数のジョブにまたがって使用できるため、各パラメーターとスキーマを手動で定義する必要がなく、ジョブの設定をすばやく行うことができます。

始める前に

  • C:\getting_started\input_data\ディレクトリー内にソースファイルmovies.csvの準備ができていること。

手順

  1. [Repository] (リポジトリー)ツリービューで[Metadata] (メタデータ)ノードを展開し、[File delimited] (区切り付きファイル)を右クリックし、コンテキストメニューから[Create file delimited] (区切り付きファイルの作成)を選択して、[New Delimited File] (新規の区切り付きファイル)ウィザードを開きます。
  2. [New Delimited File] (新規の区切り付きファイル)ウィザードで、ファイルメタデータの名前(このサンプルではmovies)、およびファイルメタデータの説明に役立つその他の有用な情報を入力し、[Next] (次へ)をクリックして次の手順へ進み、ファイルの一般的なプロパティを定義します。

    ウィザードのこの手順では、[Name] (名前)が唯一の必須フィールドです。[Description] (説明)フィールドに入力した情報は、ファイル接続にマウスのポインターを移動すると、ツールチップとして表示されます。

  3. [File] (ファイル)フィールドにソースファイルのパスを指定するか、または[Browse] (参照)をクリックしてファイルに移動します。

    ファイルがロードされ、[File Viewer] (ファイルビューアー)エリアにファイルの抽象が表示され、ファイルの一貫性、ヘッダーの有無、さらに一般的にファイルストラクチャーを確認できます。

  4. [Format] (形式)リストからお使いのオペレーティングシステムを選択し、[Next] (次へ)をクリックしてファイルを解析します。
  5. [Preview] (プレビュー)タブで[Set heading row as column names] (先頭行をカラム名に設定)チェックボックスをオンにしてファイルのカラム名を先頭行から取得し、[Refresh Preview] (プレビューを更新)をクリックします。

    ファイルプレビューが更新され、[Rows To Skip] (スキップする行)エリアの[Header] (ヘッダー)チェックボックスが自動的に選択され、スキップするヘッダー行の数が1つ増えます。

  6. ファイル解析でスキップする必要のある先頭行がファイルに複数含まれている場合は、このフィールドに数を指定し、[Refresh Preview] (プレビューを更新)をもう一度クリックします。
  7. [Next] (次へ)をクリックしてファイルスキーマを取得します。

    生成されたファイルスキーマが[Description of the Schema] (スキーマの説明)テーブルに表示されます。

  8. スキーマにmovies_schemaという名前を付け、ファイルスキーマを確認し、実際の必要に合わせて編集します。

    この例では、[title] (タイトル)カラムと[url]カラムを長くします。

  9. [Finish] (終了)をクリックしてスキーマを確定し、ウィザードを閉じます。

    作成されたファイルメタデータは[Repository] (リポジトリー)ツリービューに表示されます。

タスクの結果

これで、映画ファイルメタデータがすぐに使える状態になりました。次に、作成したメタデータを、ソースファイルを読み取るコンポーネントに適用する必要があります。