ブロッキングキーを一致分析から定義 - Cloud - 7.3

Talend Studioユーザーガイド

Version
Cloud
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2024-02-13
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

このタスクについて

ブロッキングキーを定義することは必須ではありませんが、推奨されます。ブロッキングキーを使ってブロック内のデータをパーティショニングすると、比較が各ブロック内のレコードペアに限定されるため、検証されるレコード数が減少します。ブロッキングキーの使用は、大型のデータセットを処理する時に非常に便利です。

手順

  1. ルールエディターおよび[Generation of Blocking Key] (ブロッキングキーの生成)セクションで、[+]ボタンをクリックしてテーブルに行を追加します。
  2. 次のようにブロッキングキーのパラメーターを設定します。
    • [Blocking Key Name] (ブロッキングキーの名前): 比較する必要のあるレコードペアの数を減らすために使用するカラムの名前を入力します。

    • [Pre-algorithm] (プリアルゴリズム): ドロップダウンリストからアルゴリズムを選択し、必要な値を設定します。

      プリアルゴリズムの定義は必須ではありません。このアルゴリズムは、一致アルゴリズムで処理される前にデータをクリーン化または標準化するために使用されるため、データ一致の結果が改善されます。

    • [Algorithm] (アルゴリズム): ドロップダウンリストから使用する一致アルゴリズムを選択し、必要な値を設定します。

    • [Post-algorithm] (ポストアルゴリズム): ドロップダウンリストからアルゴリズムを選択し、必要な値を設定します。

      ポストアルゴリズムの定義は必須ではありません。このアルゴリズムは、一致アルゴリズムで処理された後にデータをクリーン化または標準化するために使用されるため、データ一致の結果が改善されます。

  3. 必要な場合は、同じ手順に従い必要な数だけブロッキングキーを追加します。
    一致分析エディターに多数のブロッキングキーを使ったルールをインポートすると、1つのブロッキングキーのみが生成され、[Data] (データ)テーブルのBLOCK_KEYカラムにリスト表示されます。
    ブロッキングキーのパラメーターの詳細は、tGenKeyのドキュメンテーションをご覧ください。