対象製品...Big Data Platform
Cloud API Services Platform
Cloud Big Data Platform
Cloud Data Fabric
Cloud Data Management Platform
Data Fabric
Data Management Platform
Data Services Platform
MDM Platform
Real-Time Big Data Platform
Talend Studioメタデータの特定のファイルのデータを別のデータソースのデータに対してマッチングするジョブを生成できます。
この自動生成ジョブのコンポーネントの設定を使用して、厳密一致と不一致の値を個別のファイルまたはデータベースに出力するように選択できます。ただし、一致候補をファイルまたはデータベースに出力するように選択することもできます。
このタスクについて
ルックアップファイルに対してデータをマッチングする手順は、次のとおりです。
- マッチングするデータを保存するファイルを選択します。
- 一致ジョブを実行するカラムを選択します。
- 必要に応じて、ブロックキーを定義して処理対象のデータを分割します。ブロックキーは、通常、ファイルに大量のデータが存在する場合に必要になります。
- 厳密一致、一致候補、不一致レコードを書き込む場所を選択します。
- 生成されたジョブを実行します。
手順
-
メニューバーで、と選択します。
[Show View] (ビューを表示)ダイアログボックスが表示されます。
-
[Help] (ヘルプ)フォルダーを展開して、[Cheat Sheets] (参照シート)を選択します。
-
[OK]をクリックしてダイアログボックスを閉じます。
Talend Studioに[Cheat Sheet] (参照シート)パネルが表示されます。
-
参照シートアイコンバーでドロップダウン矢印をクリックし、メニューから[Launch Other...] (その他を起動)を選択します。
[Cheat Sheet Selection] (参照シートの選択)ダイアログボックスが表示されます。
-
を展開して[Match Data] (データのマッチング)を選択し、[OK]をクリックしてダイアログボックスを閉じます。
対応するページが[Cheat Sheet] (参照シート)パネルに表示されます。このページでは、特定のファイルの特定のカラムに対して既製ジョブを作成する方法を段階的に説明します。
-
紹介文を読んで、[Click to Begin] (クリックして開始)をクリックします。
処理の最初の手順[Select Input File] (入力ファイルの選択)が展開されます。
-
説明を読み、[Click to perform] (クリックして実行)をクリックします。
[Input Type Select Dialog] (入力タイプ選択ダイアログ)ウィザードが開き、ジョブの作成ステップが説明されます。
-
[Type list] (タイプリスト)フィールドから、ジョブを実行するファイルのタイプを選択します。[OK]をクリックして、ウィザードの最初の手順を閉じます。
参照シートの次の手順が展開します。
ダイアログボックスが開き、Talend Studioで定義したファイル接続とデータベースが表示されます。
-
メタデータ接続からクレンジングを行うファイルを選択し、OKをクリックします。
参照シートの次の手順が展開します。
-
データをマッチングするルックアップデータソースを選択する方法の説明を読み、[Click to perform] (クリックして実行)をクリックして、ウィザードの次のビューを開きます。
-
指示に従い、最後の手順[Review and Run the Generated Job] (生成されたジョブを確認して実行)までウィザードと参照シートページの手順の切り替えを続けます。
このウィザードでは、さまざまなビューで定義された設定に応じて、リポジトリーのすべてのコンポーネントおよびメタデータを設定し、ジョブを生成します。Talend StudioはIntegrationパースペクティブに切り替わります。結果のジョブは次のようになります。
-
ジョブを保存し、F6を押して実行します。
タスクの結果
ファイルの値の厳密一致、一致候補、不一致が特定され、指定された出力ファイルまたはデータベースに保存されます。生成されたジョブは、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードの下に保存されます。