一致結果を表示する方法 - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio

このタスクについて

定義する一致タイプ(この例では[Levenshtein][Jaro-Winkler])に基づいて入力フローから重複値を収集するには、以下のようにします:

手順

  1. 大型のデータセットを処理している場合は、[Analysis parameter] (分析パラメーター)ビューで[Store on disk] (ディスクに保管) チェックボックスを選択し、以下のようにします:
    • [Max buffer size] (最大バッファサイズ)フィールドに、処理されたデータに割り当てる物理メモリのサイズを入力します。

    • [Temporary data directory path] (一時データのディレクトリーパス)フィールドで、一時ファイルを保管するディレクトリーへのパスを設定します。

  2. マッチング分析エディターで設定を保存し、[F6]を押します。
    分析が実行されます。データセット全体を基に一致ルールとブロッキングキーが計算され、エディターで[Analysis Results] (分析結果)ビューが開きます。
    このビューのチャートから、分析されたデータの重複値の全体図がわかります。最初のテーブルには、処理されたレコード、重複を除いた一意レコード、重複レコード(一致したレコード)、ルールに一致しなかった疑わしいレコードに関する統計が表示されます。重複レコードは、良好なスコア(信頼しきい値を越えている)と一致したレコードを表します。一致したペアの1つのレコードが破棄すべき重複で、もう1つがサバイバーレコードです。
    2番目のテーブルには、グループ数と各グループ内のレコード数に関する統計が表示されます。テーブルのカラムヘッダーをクリックすると、クリックしたヘッダーに従って結果がソートされます。