tAddressRowCloudの標準プロパティ - 7.2

Address standardization

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 住所標準化コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 住所標準化コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 住所標準化コンポーネント

これらのプロパティを使って、標準ジョブフレームワークで実行されているtAddressRowCloudを設定します。

[Standard] (標準) tAddressRowCloudコンポーネントは、データクオリティファミリーに属しています。

このコンポーネントは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricで利用できます。

基本設定

[Schema] (スキーマ)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

 

[Built-in] (組み込み): そのコンポーネントのみのスキーマを作成して、ローカルに保存します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Edit Schema] (スキーマを編集)

[...]ボタンをクリックして、アドレスデータの入力スキーマと出力スキーマを定義します。

tAddressRowCloudの出力スキーマに、処理アドレスの検証ステータスを提供するVerificationLevelカラムなど、複数の読み取り専用アドレスカラムが表示されます。このカラムの検証レベルは Talend によって定義されます。詳細は、tAddressRowCloudのアドレス検証レベルを参照してください。

また、ジョブの実行時、コンポーネント基本設定で選択するアドレスプロバイダーによっては一部の出力カラムが空の場合があります。

[Address Provider] (アドレスプロバイダー)

入力アドレスの検証とフォーマットの実行対象にする参照データのプロバイダーをリストから選択してください。

アドレスプロバイダーのリストには、Google、Loqate、QAS、MelissaDataなどがあります。

[License/API key] (ライセンス/APIキー)

リストから選択したアドレスプロバイダーが提供するライセンスまたはAPIキーを入力します。プロバイダーのWebサイトにアクセスし、ライセンス/APIキーを登録し、取得する必要があります。

プロバイダーにGoogleを選択する場合、Google Places APIが使われます。キーをGoogle Developer Console (https://developers.google.com/console/help/new/)で生成してこのフィールドで設定してください。

[Processing Mode] (処理モード)

このオプションはLoqateプロバイダーにしか適用されません。

使用するアドレス検証のモードをリストから選択します。

-Verify and Geocode (検証とジオコード) (デフォルトで選択済み): このモードでは、アドレスが標準化および修正されて、緯度と経度の情報が追加されます。
注:

アドレス検証とジオコードを組み合わせると、クレジットが余分に発生します。詳細は、[Cloud Price Card] (クラウド価格カード)を参照してください。

-Verify only (検証のみ): このモードでは、アドレスが標準化および修正されて、緯度と経度の情報は追加されません。

[Country] (国)

このオプションはQASプロバイダーにしか適用されません。

入力アドレスに対応する国をリストから選択します。

プロバイダーにQASを選択する場合、QAS Pro OnDemandサービスが使われます。Experianのアドレス検証については、製品シート(https://www.edq.com/globalassets/product-sheets/address-verification.pdf)を参照してください。

[QAS OnDemand username] (QAS OnDemandユーザー名)

このオプションはQASプロバイダーにしか適用されません。

QASが提供するライセンスにあるユーザー名を入力します。

ユーザー名はQAS OnDemandポータルで確認できます。

[Password] (パスワード)

このオプションはQASプロバイダーにしか適用されません。

QASが提供するライセンスにあるパスワードを入力します。

パスワードはQAS OnDemandポータルで確認できます。

[Use security mode to connect] (セキュリティモードを使用して接続)

このチェックボックスをオンにすると、セキュアモードでクラウドに接続されます。パフォーマンスにやや影響することがあります。

アドレスプロバイダーによっては、このチェックボックスを使用できないことがあります。

[Mapping] (マッピング)

Address field (アドレスフィールド): テーブルに行を追加して、入力アドレスを入れるフィールドを定義済みアドレスリストから選択します。

アドレスリストには、すべてのアドレスプロバイダーに対応する[Address] (アドレス)[PostalCode] (郵便番号)[Locality] (地域)[AdministrativeArea] (管理領域)[Country] (国)の各カラムが含まれています。

[Input Column] (入力カラム): テーブルに行を追加して、入力スキーマからのアドレスを入れるカラムをリストで選択します。入力スキーマには、1つ以上のカラムを含めることができ、アドレスデータを表示しないカラムを含めることができます。

[Use Additional Output] (追加の出力を使用)

このオプションはQASプロバイダーには使用できません。

このチェックボックスをオンにし、[Output Mapping] (出力のマッピング)を使って、さらに多くのアドレスカラムを出力スキーマに追加します。

[Address field] (アドレスフィールド): テーブルに行を追加して、出力したいその他の情報のフィールドを定義済みアドレスリストから選択します。

これらの定義済みアドレスフィールドは、[Address Provider] (アドレスプロバイダー)リストで選択したプロバイダーによって異なります。その他のアドレスリストの詳細は、プロバイダーのWebサイトをご確認ください。

[Output Column] (出力カラム): その他のアドレス情報を入れるカラムをリストから選択します。最初にこれらのカラムをtAddressRowCloud出力スキーマに[Edit Schema] (スキーマを編集)ボタンで追加します。

tAddressRowCloudは、アドレスフィールドの値を[Output Column] (出力カラム)の出力カラムにマッピングします。

入力カラムの正確な名前を持つ[Output Address] (出力結果アドレス)テーブルに出力カラムを1つ含める場合、入力カラムの値は、コンポーネントからの値で上書きされます。

[Die on error] (エラー発生時に強制終了)

このチェックボックスをオンにすると、エラー発生時にジョブの実行が停止されます。

エラーの発生した行をスキップし、エラーが発生していない行の処理を完了するには、このチェックボックスをオフにします。エラーをスキップしたら、[Row] (行)> [Reject] (リジェクト)リンクを使用してエラーの発生した行を収集できます。

詳細設定

このビューのフィールドは、基本設定ビューで選択したアドレスプロバイダーに応じて異なります。

-[Address Line Separator] (アドレス行区切り): 出力アドレスフィールド内で出力アドレスコンポーネントを区切る文字列を定義します。

このフィールドのデフォルトオプション、[Default] (デフォルト)をそのまま使う場合、ユーザーが選択したアドレスプロバイダーに応じた行区切りが使われます。たとえば、Loqateでは改行文字列(<BR>)、MelissaDataでは;が使われます。

-[Default Country] (デフォルトの国名): データ解析時、特定可能な国名が入力レコード内にない場合にISO 3166-1 alpha-3コードを使用する国名を選択します。

-[Forced Country] (強制的に使用する国名): データ解析時、ISO 3166-1 alpha-3コードをすべての入力レコードに対して使用する国名を選択します。

-[Output Script] (出力スクリプト): 出力アドレスのトランスリタレーション言語を選択します。

スクリプトリストは、選択したアドレスプロバイダーに応じて異なります。

アドレスプロバイダーがLoqateまたはMelissaDataの場合:

このフィールドでデフォルトのオプション、[Not set] (未設定)を維持する場合、入力データがチェックされ、入力データの大部分がネイティブまたはラテン語かどうかに応じて [Native] (ネイティブ)または[Latin] (ラテン語)の使用が決まります。

[Latin] (ラテン語)を選択して、解析結果をラテン語または西洋の文字でエンコードします。

[Native/Match input] (ネイティブ/入力データの照合)を選択して、可能な限り国名スクリプトを使って解析結果をエンコードします。

[Native/Match input] (ネイティブ/入力データの照合)スクリプトには、tAddressRowCloudが翻字できる、サポート対象の次の文字セット(スクリプト)と言語が含まれます。

Cyrl - キリル文字(ロシア)

Grek - ギリシャ文字(ギリシャ)

Hebr - ヘブライ文字(イスラエル)

Hani - 漢字(日本)

Hans - 簡体字中国語(中国)

Arab - アラビア文字(アラブ首長国連邦)

Thai - タイ語(タイ)

Hang - ハングル文字(韓国)

-Minimum match score (最小一致スコア): レコードが取り消されないように達する必要がある最小一致スコアを設定します。デフォルト値はゼロで、有効な値の範囲は0~100です。

このオプションは、特定のレベルの検証(最小一致スコア)に達していない場合、出力フィールドで入力データを取得する必要がある時にとても役立ちます。

-[Minimum interval between two queries (milliseconds)] (2つのクエリー間の最小間隔 (ミリ秒)): 2つのクエリー間の最小待機時間をミリ秒単位で設定します。

-[Limit of retrying the same query in case it fails (times)] (クエリーに失敗した場合のそのクエリーの試行制限(回数)): クエリーに失敗した場合の試行回数を設定します。

-[Interval between two retries of the same query (milliseconds)] (同じクエリーを再試行するまでの間隔(ミリ秒)): 同じクエリーを再試行するまでの最小待機時間をミリ秒単位で設定します。

-[Delay before forcing the termination of the query executor (seconds)] (クエリー実行プログラムを強制終了する前の待機時間 (秒)): クエリー実行プログラムを停止するまでの待機時間を秒単位で設定します。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、コンポーネントレベルでログデータを収集できます。

グローバル変数

[Global Variables] (グローバル変数)

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合のみ機能します。

Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、 Talend Studio ユーザーガイドをご覧ください。

使用方法

[Usage rule] (使用ルール)

このコンポーネントは通常、中間コンポーネントとして使用されます。入力コンポーネントと出力コンポーネントが必要です。

このコンポーネントにより、[Row] (行) > [Main] (メイン)リンクを使ってデータフローを作成したり、[Row] (行) > Reject (リジェクト)リンクでリジェクトフローを作成してエラーのあるデータをフィルタリングしたりできます。