tGenKey MapReduceプロパティ - 7.2

Identification

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 識別コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 識別コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 識別コンポーネント

これらのプロパティを使って、MapReduceジョブフレームワーク内で実行されているtGenKeyを設定します。

MapReduce tGenKeyコンポーネントはデータクオリティファミリーのコンポーネントです。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend Platform製品すべて、およびTalend Data Fabricで使用できます。

基本設定

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

ジョブで接続されている先行コンポーネントからスキーマを取得するには、[Sync columns] (カラムの同期)をクリックします。

 

[Built-in] (組み込み): そのコンポーネントのみのスキーマを作成して、ローカルに保存します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

定義されてStudioのリポジトリーに保存されている一致ルールからブロッキングキーをインポートするには、インポートアイコンをクリックします。

インポートアイコンをクリックすると、[Match Rule Selector] (一致ルールセレクター)ウィザードが開き、Studioのリポジトリーにリスト表示されている一致ルールからブロッキングキーをインポートして、ジョブに使用できます。

ブロッキングキーは、VSRアルゴリズムで定義され、Studioのリポジトリーに保存されている一致ルールからのみインポートできます。詳細は、Studioリポジトリーから一致ルールをインポートを参照してください。

[Column] (カラム)

機能キーを設定するアルゴリズムを定義するためのメインフローから、カラムを選択します。

注: 日付カラムにアルゴリズムやマッチングアルゴリズムを適用すると、日付形式で比較する内容を決定できます。

たとえば、日付の年のみを比較する場合は、コンポーネントスキーマで日付カラムのタイプを[Date]に設定し、[Date Pattern] (日付パターン)フィールドにyyyyと入力します。コンポーネントでは、スキーマで定義されたパターンに基づき、日付形式を文字列に変換してから文字列比較が開始されます。

[Pre-algorithm] (プリアルゴリズム):

必要に応じて、該当する一致アルゴリズムをリストから選択します。

[Remove diacritical marks] (発音区別符号を削除): 発音区別符号があれば削除します。

[Remove diacritical marks and lower case] (発音区別符号の削除と小文字): カラムのコードを生成する前に、発音区別符号を削除し、小文字に変換します。

[Remove diacritical marks and upper case] (発音区別符号の削除と大文字): カラムのコードを生成する前に、発音区別符号を削除し、大文字に変換します。

[Lower case] (小文字): キーアルゴリズムを適用する前に、フィールドを小文字に変換します。

[Upper case] (大文字): キーアルゴリズムを適用する前に、フィールドを大文字に変換します。

[Add left position character] (左位置の文字を追加): カラムの左側に文字を追加できます。

[Add right position character] (右位置の文字を追加): カラムの右側に文字を追加できます。

[Value] (値)

該当する場合は、アルゴリズムの値を設定します。

[Algorithm] (アルゴリズム)

該当するアルゴリズムをリストから選択します。

[First character of each word] (各語の最初の文字): カラム内の各語の最初の文字を機能キーに含めます。入力データに日本語文字を使用する場合は、入力テキストをトークン化する必要があります。詳細は、tJapaneseTokenizeを参照してください。

[N first characters of each word] (各語の最初のN文字): カラム内の各語の最初のN文字を機能キーに含めます。入力データに日本語文字を使用する場合は、入力テキストをトークン化する必要があります。詳細は、tJapaneseTokenizeを参照してください。

[First N characters of the string] (文字列の最初のN文字): 文字列の最初のN文字を機能キーに含めます。

[Last N characters of the string] (文字列の最後のN文字): 文字列の最後のN文字を機能キーに含めます。

[First N consonants of the string] (文字列の最初のN子音): 文字列の最初のN子音を機能キーに含めます。日本語と中国語の文字はサポートされていません。

[First N vowels of the string] (文字列の最初のN母音): 文字列の最初のN母音を機能キーに含めます。日本語と中国語の文字はサポートされていません。

[Pick characters] (文字を選ぶ): 固定位置にある文字を機能キーに含めます(設定したデジタル/範囲に対応)。

[Exact] (完全一致): 完全な文字列を機能キーに含めます。

[Substring(a,b)]: 設定済みのインデックスに従って文字を機能キーに含めます。

[Soundex code] (Soundexコード): 標準の英語音声アルゴリズムに従ってコードを生成します。このコードは、機能キーに含まれる文字列を表します。日本語と中国語の文字はサポートされていません。

[Metaphone code] (Metaphoneコード): 文字の発音に従ってコードを生成します。このコードは、機能キーに含まれる文字列を表します。日本語と中国語の文字はサポートされていません。

[Double-metaphone code] (Double-metaphoneコード): 新しいバージョンのMetaphone音声アルゴリズムを使用して、文字の発音に従い、コードを生成します。この音声アルゴリズムは、元のアルゴリズムよりも正確な結果を生成します。このコードは、機能キーに含まれる文字列を表します。日本語と中国語の文字はサポートされていません。

[Fingerprint key] (指紋キー): 次のシーケンシャルプロセスを使用して、文字列値から機能キーを生成します。
  1. 先頭と末尾の空白を削除、

  2. すべての文字を小文字に変更、

  3. すべての句読点と制御文字を削除、

  4. 文字列を空白で区切られたトークンに分割、

  5. トークンをソートして重複を削除、

  6. トークンを再結合。

    文字列部分がソートされるため、トークンの順序は関係ありません。したがって、Cruise, TomTom Cruiseの両方が指紋cruise tomで終わるので、同じクラスターで終わります。

  7. 拡張西洋文字をASCII表現に正規化します(たとえば、gödelからgodelへ)。

    これは、ASCII のみのキーボードで拡張文字を入力する時に実行されるデータ入力ミスを再現します。ただし、この手順は間違った結果につながる可能性もあります。たとえば、gödelgodélの両方が指紋としてgodelとなりますが、別の名前になる可能性があります。したがって、拡張文字が大幅な差別化の役割を果たすデータセットでは、これはあまり効果的ではありません。

nGramkey: このアルゴリズムは、上記で説明したfingerPrintkeyメソッドと似ています。ただし、空白で区切られたトークンを使用する代わりに、n-gramsが使用されます。nはユーザーが指定します。このメソッドでは、次のシーケンシャルプロセスを使用して、文字列値から機能キーを生成します。
  1. すべての文字を小文字に変更、

  2. すべての句読点と制御文字を削除、

  3. すべての文字列のn-gramsを取得

  4. n-gramsをソートして重複を削除

  5. ソートしたn-gramsを元どおりに結合

  6. 拡張西洋文字をASCII表現に正規化します(たとえば、gödelからgodelへ)。

    たとえば、Parisの2-gram指紋はarispariで、1-gram指紋はaiprsです。

    このアルゴリズムの配信実装は2-gramsです。

注:

nGramkeyアルゴリズムを使用するカラムが、文字数が0または1のみのデータを持つ可能性がある場合は、機能キーを生成する前にこのデータをフィルタリングする必要があります。こうすることで、候補と一致しないレコードが互いに比較される可能性を排除できます。

[Cologne phonetics] (ケルン音声学): ドイツ語向けに最適化されたSoundex音声アルゴリズム。文字列をケルン音声学の値にエンコードします。このコードは、機能キーに含まれる文字列を表します。日本語と中国語の文字はサポートされていません。

[Value] (値)

該当する場合は、アルゴリズムの値を設定します。

[Post-algorithm] (ポストアルゴリズム):

必要に応じて、該当する一致アルゴリズムをリストから選択します。

[Use default value] (デフォルト値を使用) (文字列): nullデータまたは空のデータを置換する文字列を選択できます。

[Add left position character] (左位置の文字を追加): カラムの左側に文字を追加できます。

[Add right position character] (右位置の文字を追加): カラムの右側に文字を追加できます。

[Value] (値)

該当する場合は、オプションの値を設定します。

[Show help] (ヘルプを表示)

アルゴリズム/オプションのパラメーターを設定する手順を表示するには、このチェックボックスをオンにします。

詳細設定

[tStat Catcher Statistics] (tStatキャッチャー統計)

このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

このチェックボックスは、コンポーネントのMap/Reduceバージョンでは使用できません。

グローバル変数

[Global Variables] (グローバル変数)

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合にのみ機能します。

Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、『 Talend Studio ユーザーガイド』を参照してください。

使用方法

[Usage rule] (使用ルール)

Talend  Map/Reduceジョブでは、このコンポーネントは中間ステップとして使用されますが、併用する他のコンポーネントもMap/Reduceコンポーネントにする必要があります。Hadoopで直接実行できるネイティブMap/Reduceコードを生成します。

Talend Map/Reduceジョブの詳細は、『 Talend Open Studio for Big Data入門ガイド 』の Talend Map/Reduceジョブを作成、変換、設定する方法の項目を参照してください。

本書では、特に明記されていない限り、[Standard] (標準)ジョブ、つまり従来の Talend データ統合ジョブ、およびMap/Reduce以外のジョブのシナリオで説明しています。