手順
- Talend Studioを起動してローカルプロジェクトを作成するか、Talend Studioの初回起動時は、デモプロジェクトをインポートします。
- ジョブを作成するには、[Repository] (リポジトリー)ツリービューで[Job Designs] (ジョブデザイン)を右クリックし、[Create Job] (ジョブを作成) を選択します。
-
表示されるダイアログボックスでは、最初のフィールド[Name] (名前)のみが必須です。California1と入力し、[Finish] (終了)をクリックします。
空のジョブがメインウィンドウに表示され、機能別コンポーネントの[Palette] (パレット)が(デフォルトではStudioの右側に)現れ、12のコンポーネントファミリー(Databases (データベース)、Files (ファイル)、Internet (インターネット)、Data Quality (データクオリティ)など)が表示されます。何百ものコンポーネントが利用可能です。
- ファイルCalifornia_Clientsを読み込むため、tFileInputDelimitedコンポーネントを使用します。このコンポーネントは、[Palette] (パレット)の[File] (ファイル) > [Input] (入力)グループにあります。このコンポーネントをクリックし、さらにデザインワークスペースの左側をクリックして、それをデザインエリアに配置します。
- このコンポーネントの読み取りプロパティを定義しましょう: ファイルパス、カラム区切り文字、エンコードなど...Metadata Managerを使用して定義してみましょう。このツールは、パラメーターを設定するために役立つ多数のウィザードを備えています。設定したプロパティを保存しておくことにより、将来のすべてのジョブで、ワンクリックで再利用できます。
-
入力ファイルは区切り付きフラットファイルであるため、[Repository] (リポジトリー)ツリービューのMetadataフォルダーを右クリックして、[File Delimited] (区切り付きファイル)を選択します。次に、[Create file delimited] (区切り付きファイルの作成)を選択します。
区切り付きファイル専用のウィザードが開き、以下の内容が表示されます。
-
ステップ1では、[Name] (名前)フィールドのみが必須です。California_clientsと入力して、次のステップに進みます。
-
ステップ2で、[Browse...] (参照)ボタンを使用して、入力ファイル(California_Clients.csv)を選択します。画面下部の[Preview] (プレビュー)にファイルの抜粋が表示されるので、ファイルの内容をすぐに確認できます。[Next] (次へ)をクリックします。
-
ステップ3では、ファイルパラメーターを定義します: ファイルのエンコード、行とカラムの区切り文字... 標準的な入力ファイルのため、ほとんどのデフォルト値で問題は生じません。ファイルの1行目はカラム名を含むヘッダーです。自動的にこれらの名前を取得するため、[Set heading row as column names] (カラム名として先頭行を設定)をクリックしてから、[Refresh Preview] (プレビューを更新)をクリックします。[Next] (次へ)をクリックして、最後のステップに進みます。
-
ステップ4では、ファイルの各カラムを設定します。ウィザードには、ファイルの最初のデータ行に基づいて、カラムの型と長さを推定するアルゴリズムが組み込まれています。提示されたデータ記述(Talend Studioではスキーマと呼ばれます)はいつでも変更できます。このシナリオでは、それらをそのまま使用できます。
これで、California_clientsメタデータは完了です。
これを入力コンポーネントで使用できます。先にデザインワークスペースにドロップしたtFileInputDelimitedを選択し、ウィンドウ下部に位置する[Component] (コンポーネント)ビューを選択します。
-
- 縦に並んだタブの[Basic settings] (基本設定)を選択します。このタブには、コンポーネントを動作させるために必要なすべての技術的なプロパティが含まれています。これらのプロパティをそれぞれ設定するのではなく、定義したばかりのメタデータエントリーを使用します。
-
リストで[Property type] (プロパティタイプ)として[Repository] (リポジトリー)を選択します。新しいフィールドが表示されるため、[Repository] (リポジトリー)の[...]ボタンをクリックし、リストから関連するメタデータエントリーCalifornia_clientsを選択します。
すべてのパラメーターが自動的に入力されたことを確認できます。
この段階では、単に入力ファイルから読み取ったデータを標準出力(StdOut)に送信することで、フローを終了します。
- そのために、tLogRowコンポーネントを([Logs & Errors] (ログ&エラー)グループから)追加します。両方のコンポーネントをリンクするため、入力コンポーネントを右クリックして、Row > Mainを選択します。次に、出力コンポーネントのtLogRowをクリックします。
- これで、このジョブを実行する準備ができました。実行するには、下部のパネルで[Run] (実行)タブを選択します。
-
[Run] (実行)ビューの縦に並んだタブの[Advanced Settings] (詳細設定)で[Statistics] (統計)チェックボックスをオンにして統計を有効にしてから、[Basic Run] (基本実行)タブで[Run] (実行)をクリックしてジョブを実行します。
入力ファイルの内容がコンソールに表示されます。