一致分析の設定 - 7.1

Talend Real-time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Real-Time Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

手順

  1. マッチング分析エディターの[Limit] (制限)フィールドで、データサンプルとして使用するデータレコードの数を設定します。
    データが[Data Preview] (データプレビュー)テーブルに表示されます。
  2. 必要に応じて、テーブルでカラム名をクリックし、サンプルデータを昇順または降順にソートします。
  3. マッチング分析エディターで以下を選択します。

    オプション

    内容...

    選択されたテーブルを、ツリービューの[Metadata] (メタデータ)ノードの下に配置します。

    [New Connection] (新規接続)

    マッチング分析エディター内からデータベースやファイルへの接続を作成します。作成した接続をこのエディターで展開し、一致させるカラムを選択できます。

    データソースへの接続を作成する方法についての詳細は、データベースへの接続およびファイルへの接続を参照して下さい。

    [Select Data] (データの選択)

    テーブルにリスト表示されているカラムの選択を更新します。

    分析用のデータセットを変更すると、サンプルデータの一致結果に表示されるチャートは自動的にクリアされます。定義した新しいデータの一致結果を計算するには、[Chart] (チャート)をクリックする必要があります。

    [Refresh Data] (データの更新)

    テーブルにリスト表示されているカラムのビューを更新します。

    [n first rows] (最初のn行)

    または

    [n random rows] (ランダムなn行)

    選択したカラムから最初のNデータレコードをテーブルにリスト、または選択したカラムからランダムなNレコードをリストします。

    ブロッキングキーの選択

    ブロックで処理されたデータのパーティショニング先に基づいて、入力フローからカラムを定義します。

    詳細は、一致ルールの定義を参照して下さい。

    [Select Matching Key] (マッチングキーの選択)

    一致アルゴリズムを適用する入力フローから、一致ルールとカラムを定義します。

    詳細は、一致ルールの定義を参照して下さい。

    [Store on disk] (ディスクに保存)

    システムパフォーマンスを最大化できるよう、処理されたデータブロックをディスクに保管します。

    [Max buffer size] (最大バッファサイズ): 処理されたデータに割り当てる物理メモリのサイズを入力します。

    [Temporary data directory path] (一時データのディレクトリーパス): 一時ファイルを保管するディレクトリーへのパスを設定します。

タスクの結果

[Data Preview] (データプレビュー)テーブルには、一致データの結果を表示するカラムが追加されます。これらのカラムの意味は次のとおりです。

カラム

[Description] (説明)

GID

グループ識別子を表します。

GRP_SIZE

グループ内のレコード数をカウントします。マスターレコードでのみ計算されます。

MASTER

マッチング比較で使用されるレコードがマスターレコードかどうか、trueまたはfalseで識別されます。マスターレコードは各グループに1つのみです。

入力レコードはそれぞれマスターレコードと比較され、一致した入力レコードはグループに含められます。

SCORE

使用される一致アルゴリズムに基づいて、入力レコードとマスターレコード間の距離を測定します。

GRP_QUALITY

グループの最小値である品質スコアを持っているのはマスターレコードのみです。

ATTRIBUTE_SCORE

一致するスコアと適用されたルールでキー属性として使用されるカラムの名前が一覧表示されます。

そのカラムは、tMatchGroupコンポーネントの出力スキーマで見つかります。詳細は、『Talendコンポーネントリファレンスガイド』でtMatchGroupのドキュメンテーションを参照して下さい。