手順
-
tGenKeyをダブルクリックして[Basic settings] (基本設定)ビューを表示し、コンポーネントプロパティを定義します。
をクリックし、VSRアルゴリズムで作成されたマッチングルールからブロックキーをインポートし、 Talend Studio の Profiling パースペクティブでテストしてジョブで使用できます。それ以外の場合は、以下の手順に従ってブロッキングキーのパラメーターを定義します。
- Algorithmテーブルで[+]ボタンをクリックして、このテーブルに行を追加します。
- [column] (カラム)のカラムで、新しく追加された行をクリックし、アルゴリズムを使用して処理する列をリストから選択します。このサンプルでは、DoBを選択します。
- [algorithm] (アルゴリズム)カラムで、新しく追加された行をクリックし、対応する列に適用するアルゴリズムをリストから選択します。このサンプルでは、部分文字列(a、b)を選択します。
-
[Value] (値)カラムをクリックし、必要に応じて選択したアルゴリズムの値を入力します。このシナリオでは、6;10を入力します。
部分文字列(a,b)アルゴリズムを使用すると、指定された2つのインデックス間で文字列を抽出し、新しい部分文字列を返すことができます。最初の文字はインデックス0にあります。このシナリオでは、特定のDoB 「21-01-1995」の場合、6; 10は出生の年、つまり7番目から10番目の文字の部分文字列である 「1995」のみを返します。このサンプルでは、データ行ごとに、生年月日の最後の4文字(生年月日に対応)を保持する機能キーを生成します。これらのカラムに余分なオプションを定義する必要はありません。アルゴリズム/オプションパラメーターの設定方法の説明を表示するには、[Show help] (ヘルプを表示)チェックボックスをオンにします。tGenKeyプロパティを定義すると、これらのパラメーターの統計ビューを表示できます。これを行うには、次の手順に従います。
-
tGenKeyコンポーネントを右クリックし、コンテキストメニューで[View Key Profile] (キープロファイルの表示)を選択します。
[View Key Profile] (キープロファイルの表示)エディタが表示され、ブロック数に関する統計を表示し、取得する結果に従ってそれらを適合させることができます。注:
大量のデータを処理する場合、このコンポーネントを使用して一致するコンポーネント(tRecordMatchingやtMatchGroupなど)でデータを使用する場合、このコンポーネントを使用して1つのブロックに行数を制限する必要があります。1ブロックあたり約50行が最適ですが、比較するフィールド数、行総数、データ処理に適正な時間に依存します。
キーエディタで、次の操作が実行できます。-
統計の計算に使用される行の[Limit] (制限)を編集します。
-
をクリックして、Talend Studioリポジトリーからブロックキーをインポートし、ジョブで使用します。
-
アルゴリズムを使用して処理する入力カラムを編集します。
-
入力カラムに適用するアルゴリズムのパラメーターを編集します。
変更を加えるたびに、エディタの右上にある[Refresh] (最新の情報に更新)ボタンをクリックして、その影響を確認できます。 -
- [OK]をクリックして、[View Key Profile] (キープロファイルの表示)を閉じます。