データをマッチングするジョブの作成 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

Studioメタデータの特定のファイルのデータを別のデータソースのデータに対してマッチングするジョブを生成することができます。この自動生成ジョブのコンポーネントの設定を使用して、厳密一致と不一致の値を個別のファイルまたはデータベースに出力するように選択できます。ただし、一致候補をファイルまたはデータベースに出力するように選択することもできます。

ルックアップファイルに対してデータをマッチングする手順は、次のとおりです。

  1. マッチングするデータを格納するファイルを選択します。

  2. 一致ジョブを実行するカラムを選択します。

  3. 必要に応じて、ブロックキーを定義して処理対象のデータを分割します。ブロックキーは、通常、ファイルに大量のデータが存在する場合に必要になります。

  4. 厳密一致、一致候補、不一致レコードを書き込む場所を選択します。

  5. 生成されたジョブを実行します。

厳密一致、一致候補、および不一致の値を特定および保存するジョブを生成するには、以下のようにします:

  1. メニューバーで、[Window] (ウィンドウ) > [Show View] (ビューの表示)を選択します。

  2. [Show View] (ビューの表示)ダイアログボックスが表示されます。

  3. [Help] (ヘルプ)フォルダーを展開して、[Cheat Sheets] (参照シート)を選択します。

  4. [OK]をクリックして、ダイアログボックスを閉じます。

    Studioに[Cheat Sheet] (参照シート)パネルが表示されます。

  5. 参照シートアイコンバーでドロップダウン矢印をクリックし、コンテキストメニューから[Launch Other...] (その他を起動)を選択します。

    [Cheat Sheet Selection] (参照シートの選択)ダイアログボックスが表示されます。

  6. [Talend - Cheat Sheets] (Talend-参照シート) > [Job] (ジョブ)を展開して[Match Data] (データのマッチング) を選択し、[OK]をクリックしてダイアログボックスを閉じます。

    対応するページが[Cheat Sheet] (参照シート)パネルに表示されます。このページでは、特定のファイルの特定のカラムに対して既製ジョブを作成する方法を段階的に説明しています。

  7. 紹介文を読んで、[Click to Begin] (クリックして開始)をクリックします。

    処理の最初の手順[Select Input File] (入力ファイルの選択)が展開されます。

  8. 説明を読み、[Click to perform] (クリックして実行)をクリックします。

    ウィザードが表示され、ジョブを作成する手順が段階的に説明されます。

  9. [Type list] (タイプリスト)フィールドから、ジョブを実行するファイルのタイプを選択します。[OK]をクリックして、ウィザードの最初の手順を閉じます。参照シートの次の手順が展開します。

    ダイアログボックスが開き、Studioで定義したファイル接続とデータベースが表示されます。

  10. メタデータ接続からクレンジングを行うファイルを選択し、OKをクリックします。

    参照シートの次の手順が展開します。

  11. データをマッチングするルックアップデータソースを選択する方法の説明を読み、[Click to perform] (クリックして実行)をクリックして、ウィザードの次のビューを開きます。

  12. 指示に従い、最後の手順[Review and Run the Generated Job] (生成されたジョブの確認および実行)までウィザードと参照シートページの手順の切り替えを続けます。このウィザードでは、さまざまなビューで定義された設定に応じて、リポジトリーの全てのコンポーネントおよびメタデータを設定し、ジョブを生成します。Studioは 統合 パースペクティブに切り替わります。結果のジョブは次のようになります。

  13. ジョブを保存し、[F6]を押して実行します。

    ファイルの値の厳密一致、一致候補、不一致が特定され、指定された出力ファイルまたはデータベースに保存されます。生成されたジョブは、[Repository] (リポジトリ)ツリービューの[Job Designs] (ジョブデザイン)ノードの下に保存されます。