一致結果を表示する方法 - 7.3

Talend Data Fabric Studio ユーザーガイド

Version
7.3
Language
日本語 (日本)
Product
Talend Data Fabric
Module
Talend Studio
Content
ジョブデザインと開発

このタスクについて

定義する一致タイプ(この例では[Levenshtein][Jaro-Winkler])に基づいて入力フローから重複値を収集するには、次の手順に従います。

手順

  1. 大型のデータセットを処理している場合は、[Analysis parameter] (分析パラメーター)ビューで[Store on disk](ディスクに保存) チェックボックスをオンにし、以下のようにします:
    • [Max buffer size] (最大バッファーサイズ)フィールドに、処理されたデータに割り当てる物理メモリのサイズを入力します。

    • [Temporary data directory path] (一時データのディレクトリーパス)フィールドで、一時ファイルを保管するディレクトリーへのパスを設定します。

  2. 一致分析エディターで設定を保存し、[F6]を押します。
    分析が実行されます。データセット全体を基にマッチングルールとブロッキングキーが計算され、エディターで[Analysis Results] (分析結果)ビューが開きます。
    このビューのチャートから、分析されたデータの重複値の全体図がわかります。最初のテーブルには、処理されたレコード、重複を除いた一意レコード、重複レコード(一致したレコード)、ルールに一致しなかった疑わしいレコードに関する統計が表示されます。重複レコードは、良好なスコア(信頼しきい値を越えている)と一致したレコードを表します。一致したペアの1つのレコードが破棄すべき重複で、もう1つがサバイバーレコードです。
    2番目のテーブルには、グループ数と各グループ内のレコード数に関する統計が表示されます。テーブルのカラムヘッダーをクリックすると、クリックしたヘッダーに従って結果がソートされます。