一致結果を表示 - Cloud - 8.0

Talend Studioユーザーガイド

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2023-09-21
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

このタスクについて

定義する一致タイプ(この例では[Levenshtein][Jaro-Winkler])に基づいて入力フローから重複値を収集するには、次の手順に従います。

手順

  1. 大型のデータセットを処理している場合は、[Analysis parameter] (分析パラメーター)ビューで[Store on disk] (ディスクに保存)チェックボックスをオンにして次の操作を行います。
    • [Max buffer size] (最大バッファーサイズ)フィールドに、処理されたデータに割り当てる物理メモリのサイズを入力します。

    • [Temporary data directory path] (一時データのディレクトリーパス)フィールドで、一時ファイルを保管するディレクトリーへのパスを設定します。

  2. 一致分析エディターで設定を保存し、F6を押します。
    分析が実行されます。データセット全体に基づいてマッチングルールとブロッキングキーが計算され、エディターで[Analysis Results] (分析結果)ビューが開きます。
    このビューのチャートから、分析されたデータの重複値の全体図がわかります。最初のテーブルには、処理されたレコード、重複を除いた一意レコード、重複レコード(一致したレコード)、ルールに一致しなかった疑わしいレコードに関する統計が表示されます。重複レコードは、良好なスコア(信頼しきい値を越えている)と一致したレコードを表します。一致したペアの1つのレコードが破棄すべき重複で、もう1つがサバイバーレコードです。
    2番目のテーブルには、グループ数と各グループ内のレコード数に関する統計が表示されます。テーブルのカラムヘッダーをクリックすると、クリックしたヘッダーに従って結果がソートされます。