tBatchAddressRowCloudの標準プロパティ - 7.2

Address standardization

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 住所標準化コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 住所標準化コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 住所標準化コンポーネント

このプロパティは[Standard] (標準)ジョブフレームワークで実行されるtBatchAddressRowCloudの設定で使用されます。

[Standard] (標準) tBatchAddressRowCloudコンポーネントは、データクオリティファミリーに属しています。

このコンポーネントは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricで利用できます。

基本設定

[Schema] (スキーマ)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

 

[Built-in] (組み込み): そのコンポーネントのみのスキーマを作成して、ローカルに保存します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Edit Schema] (スキーマを編集)

[...]ボタンをクリックして、アドレスデータの入力スキーマと出力スキーマを定義します。

tBatchAddressRowCloudの出力スキーマにより、 [VerificationLeve]カラムを含む処理されたアドレスの検証ステータスを提供する、読み取り専用のアドレスカラムがいくつか提案されます。このカラムの検証レベルは Talend によって定義されます。詳細は、tAddressRowCloudのアドレス検証レベルを参照してください。

また、ジョブの実行時、コンポーネント基本設定で選択するアドレスプロバイダーによっては一部の出力カラムが空の場合があります。

[Address Provider] (アドレスプロバイダー)

アドレスの検証とフォーマット化を行う参照データのプロバイダーを一覧から選択します。

アドレスプロバイダーの一覧には、LoqateとMelissaDataが含まれています。

[Default Country] (デフォルトの国)

データの解析時にISO 3166-1 alpha-3コードを使用する国名を選択し、入力レコードに識別可能な国が見つからない場合は、その国名を指定します。

[License/API key] (ライセンス/APIキー)

リストから選択したアドレスプロバイダーが提供するライセンスまたはAPIキーを入力します。

プロバイダーのWebサイトにアクセスし、ライセンス/APIキーを登録し、取得する必要があります。

[Batch job name] (バッチジョブ名)

生成されてLoqateサーバーに保存するバッチファイルに、引用符で囲んだ名前を入力します。これらのファイルには、バッチ処理の結果が保持されます。

このオプションは、選択したアドレスプロバイダーがLoqateである場合のみ表示されます。

[Number of rows in each batch file] (各バッチファイルの行数)

各バッチファイルでグルーピングするアドレスレコードの数を入力します。

このオプションは、選択したアドレスプロバイダーがLoqateである場合のみ表示されます。

注: 選択されたアドレスプロバイダーがMelissaDataの場合、各バッチファイルに100行が送信されます。

[Loqate website login] (Loqate Webサイトのログイン)

Loqateによって提供されるログインを入力します。

このオプションは、選択したアドレスプロバイダーがLoqateである場合のみ表示されます。

[Loqate website password] (Loqate Webサイトのパスワード)

Loqateによって提供されるパスワードを入力します。

このオプションは、選択したアドレスプロバイダーがLoqateである場合のみ表示されます。

[Processing Mode] (処理モード)

このオプションはLoqateプロバイダーにしか適用されません。

使用するアドレス検証のモードをリストから選択します。

-Verify and Geocode (検証とジオコード) (デフォルトで選択済み): このモードでは、アドレスが標準化および修正されて、緯度と経度の情報が追加されます。
注: 住所の確認とジオコーディングを組み合わせると、追加のクレジットが使用されます。詳細は、「Cloud Price Card」を参照してください。

-Verify only (検証のみ): このモードでは、アドレスが標準化および修正されて、緯度と経度の情報は追加されません。

このオプションは、選択したアドレスプロバイダーがLoqateである場合のみ表示されます。

[Input Mapping] (入力マッピング)

[Address field] (アドレスフィールド): テーブルに行を追加し、入力アドレスを保持するフィールドを定義済みのアドレスリストから選択します。

tBatchAddressRowCloudでは、一部の国の住所の構造は他の国よりも複雑なため、住所フィールドの長いリストを提供します。入力フィールドの詳細は、tLoqateAddressRowの住所フィールドを参照してください。

[Input Column] (入力カラム): テーブルに行を追加し、入力住所を保持するカラムをリストから選択します。入力スキーマには、1つ以上のカラムを含めることができ、アドレスデータを表示しないカラムを含めることができます。

[Use Additional Output] (追加の出力を使用)

このチェックボックスをオンにし、[Output Mapping] (出力のマッピング)を使って、さらに多くのアドレスカラムを出力スキーマに追加します。

[Address field] (アドレスフィールド): テーブルに行を追加して、出力したいその他の情報のフィールドを定義済みアドレスリストから選択します。

これらの定義済みアドレスフィールドは、[Address Provider] (アドレスプロバイダー)リストで選択したプロバイダーによって異なります。その他のアドレスリストの詳細は、プロバイダーのWebサイトをご確認ください。

[Output Column] (出力カラム): その他のアドレス情報を入れるカラムをリストから選択します。最初に[Edit Schema] (編集スキーマ)ボタンをクリックして、tBatchAddressRowCloud出力スキーマにこれらの追加のカラムを追加する必要があります。

tBatchAddressRowCloudは、アドレスフィールドの値を[Output Column] (出力カラム)の出力カラムにマッピングします。

入力カラムの正確な名前を持つ[Output Address] (出力結果アドレス)テーブルに出力カラムを1つ含める場合、入力カラムの値は、コンポーネントからの値で上書きされます。

詳細設定

このビューのフィールドは、基本設定ビューで選択したアドレスプロバイダーに応じて異なります。

-[Address Line Separator] (アドレス行区切り): 出力アドレスフィールド内で出力アドレスコンポーネントを区切る文字列を定義します。

このフィールドのデフォルトオプション、[Default] (デフォルト)をそのまま使う場合、ユーザーが選択したアドレスプロバイダーに応じた行区切りが使われます。たとえば、Loqateでは改行文字列(<BR>)、MelissaDataでは;が使われます。

-Forced Country (強制的に使用する国名): データ解析時、ISO 3166-1 alpha-3コードをすべての入力レコードに対して使用する国名を選択します。

-[Output Script] (出力スクリプト): 出力アドレスのトランスリタレーション言語を選択します。

スクリプトリストは、選択したアドレスプロバイダーに応じて異なります。

アドレスプロバイダーがLoqateまたはMelissaDataの場合:

このフィールドでデフォルトのオプション、[Not set] (未設定)を維持する場合、入力データがチェックされ、入力データの大部分がネイティブまたはラテン語かどうかに応じて [Native] (ネイティブ)または[Latin] (ラテン語)の使用が決まります。

[Latin] (ラテン語)を選択して、解析結果をラテン語または西洋の文字でエンコードします。

[Native/Match input] (ネイティブ/入力データの照合)を選択して、可能な限り国名スクリプトを使って解析結果をエンコードします。

[Native/Match input] (ネイティブ/マッチ入力)スクリプトには、以下のサポートされている文字セット(スクリプト)とtBatchAddressRowCloudが翻字できる言語が含まれます:

Cyrl - キリル文字(ロシア)

Grek - ギリシャ文字(ギリシャ)

Hebr - ヘブライ文字(イスラエル)

Hani - 漢字(日本)

Hans - 簡体字中国語(中国)

Arab - アラビア文字(アラブ首長国連邦)

Thai - タイ語(タイ)

Hang - ハングル文字(韓国)

-Minimum match score (最小一致スコア): レコードが取り消されないように達する必要がある最小一致スコアを設定します。デフォルト値はゼロで、有効な値の範囲は0~100です。

このオプションは、特定のレベルの検証(最小一致スコア)に達していない場合、出力フィールドで入力データを取得する必要がある時にとても役立ちます。

-[Minimum interval between two queries (milliseconds)] (2つのクエリー間の最小間隔 (ミリ秒)): 2つのクエリー間の最小待機時間をミリ秒単位で設定します。

-[Limit of retrying the same query in case it fails (times)] (クエリーに失敗した場合のそのクエリーの試行制限(回数)): クエリーに失敗した場合の試行回数を設定します。

-[Interval between two retries of the same query (milliseconds)] (同じクエリーを再試行するまでの間隔(ミリ秒)): 同じクエリーを再試行するまでの最小待機時間をミリ秒単位で設定します。

-Delay before forcing the termination of the query executor (seconds) (クエリー実行プログラムを強制終了する前の待機時間 (秒)): クエリー実行プログラムを停止するまでの待機時間を秒単位で設定します。

[Use mockup mode (no credit consumption)] (モックアップモードの使用: クレジット消費なし)

このオプションを使用する前に、Loqateサーバーでバッチファイルを作成するには、少なくとも1回はジョブを実行する必要があります。

このオプションは、テスティングまたは開発のニーズに対応する目的でのみ使用されます。このオプションでジョブを実行することを選択した場合、バッチ処理に対して課金されることはありません。

このチェックボックスをオンにすると、以前に処理されたサーバーに保存済みのバッチファイルを出力として使用して、Loqateサーバーからの実行と応答をシミュレーションできます。

-[Batch ID] (バッチ ID): ジョブの入力として使用するバッチファイルの識別コードを設定します。

Everything Locationにログインし、[Online Batch Cleansing] (オンラインバッチクレンジング)でLoqateサーバーにアクセスすると、ファイル識別コードを取得できます。

tStatCatcher Statistics (tStatCatcher統計)

このチェックボックスをオンにすると、コンポーネントレベルでログデータを収集できます。

グローバル変数

[Global Variables] (グローバル変数)

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合のみ機能します。

Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、 Talend Studio ユーザーガイドをご覧ください。

使用方法

[Usage rule] (使用ルール)

このコンポーネントは中間ステップです。入力フロート出力フローが必要になります。