一致分析の設定 - Cloud - 8.0

Talend Studioユーザーガイド

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2024-02-13
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

手順

  1. [Limit] (制限)フィールドで、データサンプルとして使用したいデータレコードの数を設定します。
    [Match Analysis] (一致分析)ビューのスクリーンショット。
  2. オプション: テーブルでカラム名をクリックし、サンプルデータを昇順または降順にソートします。
  3. 一致分析エディターでオプションを設定します。
    オプション 目的
    [Show in Data Quality repository] (Data Qualityリポジトリーに表示)アイコン 選択されたテーブルを、ツリービューの[Metadata] (メタデータ)ノードの下に配置します。
    [New Connection] (新規接続) 一致分析エディター内からデータベースやファイルへの接続を作成します。作成した接続をこのエディターで展開し、一致させるカラムを選択できます。

    データソースへの接続を作成する方法は、データソースへの接続を作成をご覧ください。

    [Select Data] (データを選択) テーブルにリスト表示されているカラムの選択をアップデートします。

    分析用のデータセットを変更すると、サンプルデータの一致結果に表示されるチャートは自動的にクリアされます。定義した新しいデータの一致結果を計算する場合は、[Chart] (チャート)をクリックする必要があります。

    [Refresh Data] (データを更新) テーブルにリスト表示されているカラムのビューを更新します。
    [n first rows] (最初のn行)

    または

    [n random rows] (ランダムなn行)

    選択したカラムから最初のNデータレコードをテーブルにリスト、または選択したカラムからランダムなNレコードをリスト表示します。
    ブロッキングキーを選択 ブロックで処理されたデータのパーティショニング先に基づいて、入力フローからカラムを定義します。

    詳細は、マッチングルールを定義をご覧ください。

    [Select Matching Key] (マッチングキーを選択) 一致アルゴリズムを適用する入力フローから、マッチングルールとカラムを定義します。

    詳細は、マッチングルールを定義をご覧ください。

    [Store on disk] (ディスクに保存) システムパフォーマンスを最大化できるよう、処理されたデータブロックをディスクに保管します。

    [Max buffer size] (最大バッファーサイズ): 処理されたデータに割り当てる物理メモリのサイズを入力します。

    [Temporary data directory path] (一時データのディレクトリーパス): 一時ファイルを保管するディレクトリーへのパスを設定します。

    [Allow drill down] (ドリルダウンを許可): 選択すると、[Analysis Results] (分析結果)タブの[View rows] (行を表示)機能が有効化されます。重複行のリストや同じサイズのグループのリストを表示させます。詳細は、分析されたデータを表示およびエクスポートをご覧ください。

タスクの結果

[Data Preview] (データプレビュー)テーブルには、一致データの結果を表示するカラムが追加されます。
  • GID: グループ識別子を表します。
  • GRP_SIZE: グループ内のレコード数をカウントします。マスターレコードでのみ計算されます。
  • MASTER: マッチング比較で使用されるレコードがマスターレコードかどうか、trueまたはfalseで識別します。マスターレコードは各グループに1つのみです。

    入力レコードはそれぞれマスターレコードと比較され、マッチングした入力レコードはグループに含められます。

  • SCORE: 使用される一致アルゴリズムに基づいて、入力レコードとマスターレコード間の距離を測定します。
  • GRP_QUALITY: グループの最小値である品質スコアを持っているのはマスターレコードのみです。
  • ATTRIBUTE_SCORE: 一致するスコアと適用されたルールでキー属性として使用されるカラムの名前がリスト表示されます。