手順1: ジョブの作成、入力の定義、ファイルの読み取り - 7.0

Data Integrationジョブのサンプル

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
ジョブデザインと開発 > ジョブデザイン
EnrichPlatform
Talend Studio

手順

  1. Talend Studioを起動してローカルプロジェクトを作成するか、Talend Studioの初回起動時は、デモプロジェクトをインポートします。
  2. ジョブを作成するには、[Repository] (リポジトリー)ツリービューで[Job Designs] (ジョブデザイン)を右クリックし、[Create Job] (ジョブの作成)を選択します。
  3. 表示されるダイアログボックスでは、最初のフィールド[Name] (名前)のみが必須です。California1と入力し、[Finish] (終了)をクリックします。

    空のジョブがメインウィンドウに表示され、機能別コンポーネントの[Palette] (パレット)が(デフォルトではStudioの右側に)現れ、12のコンポーネントファミリー(Databases (データベース)、Files (ファイル)Internet (インターネット)Data Quality (データクオリティ)など)が表示されます。何百ものコンポーネントが利用可能です。

  4. ファイルCalifornia_Clientsを読み込むため、tFileInputDelimitedコンポーネントを使用します。このコンポーネントは、[Palette] (パレット)[File] (ファイル) > [Input] (入力)グループにあります。このコンポーネントをクリックし、さらにデザインワークスペースの左側をクリックして、それをデザインエリアに配置します。
  5. このコンポーネントの読み取りプロパティを定義しましょう: ファイルパス、カラム区切り文字、エンコードなど...Metadata Managerを使用して定義してみましょう。このツールは、パラメーターを設定するために役立つ多数のウィザードを備えています。設定したプロパティを保存しておくことにより、将来のすべてのジョブで、ワンクリックで再利用できます。
  6. 入力ファイルは区切り記号付きフラットファイルであるため、[Repository] (リポジトリー)ツリービューのMetadataフォルダーを右クリックして、[File Delimited] (区切り記号付きファイル)を選択します。次に、[Create file delimited] (区切り記号付きファイルの作成)を選択します。

    区切り記号付きファイル専用のウィザードが開き、以下の内容が表示されます。

    • ステップ1では、[Name] (名前)フィールドのみが必須です。California_clientsと入力して、次の手順に進みます。

    • 手順2で、[Browse...] (参照)ボタンを使用して、入力ファイル(California_Clients.csv)を選択します。画面下部の[Preview] (プレビュー)にファイルの抜粋が表示されるので、ファイルの内容をすぐに確認できます。[Next] (次へ)をクリックします。

    • ステップ3では、ファイルパラメーターを定義します: ファイルのエンコード、行とカラムの区切り文字... 標準的な入力ファイルのため、ほとんどのデフォルト値で問題は生じません。ファイルの1行目はカラム名を含むヘッダーです。自動的にこれらの名前を取得するため、[Set heading row as column names] (カラム名として先頭行を設定)をクリックしてから、[Refresh Preview] (プレビューの更新)をクリックします。[Next] (次へ)をクリックして、最後の手順に進みます。

    • 手順4では、ファイルの各カラムを設定します。ウィザードには、ファイルの最初のデータ行に基づいて、カラムの型と長さを推定するアルゴリズムが組み込まれています。提示されたデータ記述(Talend Studioではスキーマと呼ばれます)はいつでも変更できます。このシナリオでは、それらをそのまま使用できます。

    これで、California_clientsメタデータは完了です。

    これを入力コンポーネントで使用できます。先にデザインワークスペースにドロップしたtFileInputDelimitedを選択し、ウィンドウ下部に位置する[Component] (コンポーネント)ビューを選択します。

  7. 縦に並んだタブの[Basic settings] (基本設定)を選択します。このタブには、コンポーネントを動作させるために必要なすべての技術的なプロパティが含まれています。これらのプロパティをそれぞれ設定するのではなく、定義したばかりのメタデータエントリを使用します。
  8. リストで[Property type] (プロパティタイプ)として[Repository] (リポジトリ)を選択します。新しいフィールドが表示されるため、[Repository] (リポジトリー)[...]ボタンをクリックし、リストから関連するメタデータエントリCalifornia_clientsを選択します。

    すべてのパラメーターが自動的に入力されたことを確認できます。

    この段階では、単に入力ファイルから読み取ったデータを標準出力(StdOut)に送信することで、フローを終了します。

  9. そのために、tLogRowコンポーネントを([Logs & Errors] (ログ&エラー)グループから)追加します。両方のコンポーネントをリンクするため、入力コンポーネントを右クリックして、Row > Mainを選択します。次に、出力コンポーネントのtLogRowをクリックします。
  10. これで、このジョブを実行する準備ができました。実行するには、下部のパネルで[Run] (実行)タブを選択します。
  11. [Run] (実行)ビューの縦に並んだタブの[Advanced Settings] (詳細設定)[Statistics] (統計)チェックボックスをオンにして統計を有効にしてから、[Basic Run] (基本実行)タブで[Run] (実行)をクリックしてジョブを実行します。

    入力ファイルの内容がコンソールに表示されます。