メイン コンテンツをスキップする 補完的コンテンツへスキップ

Apache Spark BatchのtGenKeyプロパティ

これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtGenKeyを設定するために使われます。

Spark BatchtGenKeyコンポーネントは、データクオリティファミリーに属しています。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend Platform製品すべて、およびTalend Data Fabricで利用できます。

基本設定

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。

 

[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

定義されてStudioのリポジトリーに保存されているマッチングルールからブロッキングキーをインポートするには、インポートアイコンをクリックします。

インポートアイコンをクリックすると、[Match Rule Selector] (マッチングルールセレクター)ウィザードが開き、Studioのリポジトリーにリスト表示されているマッチングルールからブロッキングキーをインポートして、ジョブに利用できます。

ブロッキングキーは、VSRアルゴリズムで定義され、Studioのリポジトリーに保存されているマッチングルールからのみインポートできます。詳細は、Studioリポジトリーからマッチングルールをインポートをご覧ください。

[Column] (カラム)

機能キーを設定するアルゴリズムを定義するためのメインフローから、カラムを選択します。

情報メモ注: 日付カラムにアルゴリズムやマッチングアルゴリズムを適用すると、日付形式で比較する内容を決定できます。

たとえば、日付の年のみを比較する場合は、コンポーネントスキーマで日付カラムのタイプを[Date]に設定し、[Date Pattern] (日付パターン)フィールドにyyyyと入力します。コンポーネントでは、スキーマで定義されたパターンに基づき、日付形式を文字列に変換してから文字列比較が開始されます。

[Pre-algorithm] (プリアルゴリズム):

必要に応じて、該当する一致アルゴリズムをリストから選択します。

[Remove diacritical marks] (発音区別符号を削除): 発音区別符号があれば削除します。

[Remove diacritical marks and lower case] (発音区別符号の削除と小文字): カラムのコードを生成する前に、発音区別符号を削除し、小文字に変換します。

[Remove diacritical marks and upper case] (発音区別符号の削除と大文字): カラムのコードを生成する前に、発音区別符号を削除し、大文字に変換します。

[Lower case] (小文字): キーアルゴリズムを適用する前に、フィールドを小文字に変換します。

[Upper case] (大文字): キーアルゴリズムを適用する前に、フィールドを大文字に変換します。

[Add left position character] (左位置の文字を追加): カラムの左側に文字を追加できます。

[Add right position character] (右位置の文字を追加): カラムの右側に文字を追加できます。

[Value] (値)

該当する場合は、アルゴリズムの値を設定するために使われます。

[Algorithm] (アルゴリズム)

該当するアルゴリズムをリストから選択します。

[First character of each word] (各語の最初の文字): カラム内の各語の最初の文字を機能キーに含めます。入力データに日本語文字を使用する場合は、入力テキストをトークン化する必要があります。詳細は、tJapaneseTokenizeをご覧ください。

[N first characters of each word] (各語の最初のN文字): カラム内の各語の最初のN文字を機能キーに含めます。入力データに日本語文字を使用する場合は、入力テキストをトークン化する必要があります。詳細は、tJapaneseTokenizeをご覧ください。

[First N characters of the string] (文字列の最初のN文字): 文字列の最初のN文字を機能キーに含めます。

[Last N characters of the string] (文字列の最後のN文字): 文字列の最後のN文字を機能キーに含めます。

[First N consonants of the string] (文字列の最初のN子音): 文字列の最初のN子音を機能キーに含めます。日本語と中国語の文字はサポートされていません。

[First N vowels of the string] (文字列の最初のN母音): 文字列の最初のN母音を機能キーに含めます。日本語と中国語の文字はサポートされていません。

[Pick characters] (文字を選ぶ): 固定位置にある文字を機能キーに含めます(設定したデジタル/範囲に対応)。

[Exact] (完全一致): 完全な文字列を機能キーに含めます。

[Substring(a,b)]: 設定済みのインデックスに従って文字を機能キーに含めます。

[Soundex code] (Soundexコード): 標準英語の音声アルゴリズムに従ってコードを生成します。このコードは、機能キーに含まれる文字列を表します。日本語と中国語の文字はサポートされていません。

[Metaphone code] (Metaphoneコード): 文字の発音に従ってコードを生成します。このコードは、機能キーに含まれる文字列を表します。日本語と中国語の文字はサポートされていません。

[Double-metaphone code] (Double-metaphoneコード): 新しいバージョンのMetaphone音声アルゴリズムを使用して、文字の発音に従い、コードを生成します。この音声アルゴリズムは、元のアルゴリズムよりも正確な結果を生成します。このコードは、機能キーに含まれる文字列を表します。日本語と中国語の文字はサポートされていません。

[Fingerprint key] (指紋キー): 次のシーケンシャルプロセスを使用して、文字列値から機能キーを生成します。
  1. 先頭と末尾の空白を削除、

  2. すべての文字を小文字に変更、

  3. すべての句読点と制御文字を削除、

  4. 文字列を空白で区切られたトークンに分割、

  5. トークンをソートして重複を削除、

  6. トークンを再結合。

    文字列部分がソートされるため、トークンの順序は関係ありません。したがって、Cruise, TomTom Cruiseの両方が指紋cruise tomで終わるので、同じクラスターで終わります。

  7. 拡張西洋文字をASCII表現に正規化します(たとえば、gödelからgodelへ)。

    これは、ASCII のみのキーボードで拡張文字を入力する時に実行されるデータ入力ミスを再現します。ただし、この手順は間違った結果につながる可能性もあります。たとえば、gödelgodélの両方が指紋としてgodelとなりますが、別の名前になる可能性があります。したがって、拡張文字が大幅な差別化の役割を果たすデータセットでは、これはあまり効果的ではありません。

nGramkey: このアルゴリズムは、上記で説明したfingerPrintkey方式と似ています。ただし、空白で区切られたトークンを使用する代わりに、n-gramsが使用されます。nはユーザーが指定します。この方式では、次のシーケンシャルプロセスを使用して、文字列値から機能キーを生成します。
  1. すべての文字を小文字に変更、

  2. すべての句読点と制御文字を削除、

  3. すべての文字列のn-gramsを取得

  4. n-gramsをソートして重複を削除

  5. ソートしたn-gramsを元どおりに結合

  6. 拡張西洋文字をASCII表現に正規化します(たとえば、gödelからgodelへ)。

    たとえば、Parisの2-gram指紋はarispariで、1-gram指紋はaiprsです。

    このアルゴリズムの配信実装は2-gramsです。

情報メモ注:

nGramkeyアルゴリズムを使用するカラムが、文字数が0または1のみのデータを持つ可能性がある場合は、機能キーを生成する前にこのデータをフィルタリングする必要があります。こうすることで、候補と一致しないレコードが互いに比較される可能性を排除できます。

[Cologne phonetics] (ケルン音声学): ドイツ語向けに最適化されたSoundex音声アルゴリズム。文字列をケルン音声学の値にエンコードします。このコードは、機能キーに含まれる文字列を表します。日本語と中国語の文字はサポートされていません。

[Value] (値)

該当する場合は、アルゴリズムの値を設定するために使われます。

アルゴリズムが必要とする値を設定しないと、ジョブの実行でコンパイルエラーが発生します。

[Post-algorithm] (ポストアルゴリズム):

必要に応じて、該当する一致アルゴリズムをリストから選択します。

[Use default value] (デフォルト値を使用) (文字列): nullデータまたは空のデータを置換する文字列を選択できます。

[Add left position character] (左位置の文字を追加): カラムの左側に文字を追加できます。

[Add right position character] (右位置の文字を追加): カラムの右側に文字を追加できます。

[Value] (値)

該当する場合は、オプションの値を設定するために使われます。

[Show help] (ヘルプを表示)

アルゴリズム/オプションのパラメーターを設定する手順を表示する場合は、このチェックボックスを選択します。

グローバル変数

グローバル変数

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + スペースを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、Talend Studioユーザーガイドをご覧ください。

使用方法

使用ルール

このコンポーネントは、中間ステップとして使用されます。

このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメントのシナリオでは、標準ジョブ、つまり従来の Talend データ統合ジョブだけを扱います。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • Quboleを使用する場合は、ジョブにtS3Configurationを追加し、QuboleでS3システム内に実際のビジネスデータを書き込みます。tS3Configurationを使用しないと、このビジネスデータはQubole HDFSシステムに書き込まれ、クラスターをシャットダウンすると破棄されます。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。