Apache Spark StreamingのtVerifyEmailプロパティ - Cloud

これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtVerifyEmailを設定するために使われます。

[Spark Streaming] (Spark Streaming)のtVerifyEmailコンポーネントは、データクオリティファミリーに属しています。

このコンポーネントはTalend Real-Time Big Data PlatformとTalend Data Fabricで利用できます。

基本設定

[Schema] (スキーマ)	スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語の`line`を避けます。
	[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。
	[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。
Edit Schema (スキーマを編集)	スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。変更を加えると、スキーマは自動的に組み込みになります。 tVerifyEmailの出力スキーマには、コンポーネントの[Basic settings] (基本設定)ビューで選択するオプションに応じて、異なる複数の読み取り専用カラムがあります。読み取り専用の出力カラムは次のとおりです。 VerificationLevel: 処理済みのメールアドレスの検証ステータスを次のように表示します。 -VALID: メールアドレスが定義済みのルールに準拠していることを意味します。 -VALID: メールアドレスが定義済みのルールに準拠していることを意味します。 -INVALID: メールアドレスが定義済みのルールに準拠していないことを意味します。 -INVALID: メールアドレスが定義済みのルールに準拠していないことを意味します。 -CORRECTED: 入力メールが定義済みのルールに準拠しておらず、選択したカラムのコンテンツを使用して訂正されたことを意味します。このカラムは、[LOCAL Part Options] (ローカルパートオプション)セクションで[Use column content] (カラムコンテンツを使用)オプションが選択されている場合のみ利用できます。 -VERIFIED: メールアドレスがドメインに存在しないことを意味します。このカラムは、[Check with mail server callback] (メールサーバーのコールバックを確認)オプションが選択されている場合のみ利用できます。 -REJECTED: メールアドレスがドメインに存在しないことを意味します。このカラムは、[Check with mail server callback] (メールサーバーのコールバックを確認)オプションが選択されている場合のみ利用できます。 Suggested_Email: メールアドレスの@記号の前に使用するコンテンツの推奨です。メールの文字列が、[Use column content] (カラムコンテンツを使用)ビューから選択するカラムで構築されます。
検証するカラム	tVerifyEmailを使用して検証するカラムをリストから選択してください。
正規表現のあるメール全体を確認	完全なメールアドレスを特定の正規表現と照合してマッチングする場合は、このチェックボックスをオンにします。 [Complete regular expression] (完全な正規表現): メールアドレスのマッチングのベースとする正規表現を入力します。このマッチングは、メールアドレスのローカルおよびドメイン部分のマッチングへ進む前に、マッチングプロセスを最適化し、問題のあるアドレスを除外するための最初のステップとして行われます。
ローカルパートオプション	このセクションのフィールドは、選択するオプションに応じて異なります。メールアドレスの"ローカルパート"とは、@記号の前の文字列のことをいいます。 -[Use regular expression] (正規表現を使用): メールアドレスのローカルパートをチェックするベースとする表現を[Pattern] (パターン)フィールドに入力します。 -[Use simplified pattern] (simplified patternを使用): メールアドレスのローカルパートをチェックするベースとするsimplified patternを[Pattern] (パターン)フィールドに入力します。[Show syntax of simplified pattern] (simplified patternの構文を表示)オプションを選択して、simplified patternに使用する構文を表示します。構文の詳細は、tVerifyEmailの簡単なパターン構文をご覧ください。 -[Use column content] (カラムコンテンツを使用): このビューのフィールドを使用して、メールのローカルパートをチェックするベースとするコンテンツを決定します。ローカルパートが定義したものと一致しない場合は、フィールドのコンテンツを使用して書き換えられます。 -[Enable case-sensitive pattern matching] (大文字小文字判別のパターンマッチングを有効化): メールアドレスのローカルパートの大文字と小文字が区別されるパターンマッチングを有効にする場合は、このチェックボックスをオンにします。大文字と小文字が区別されるパターンマッチングは、上記の各オプションで使用できます。
ドメインパートオプション	このビューのフィールドは、選択するオプションに応じて異なります。 -[Check the Top-level Domains and the following ones] (トップレベルドメインと以下を確認): メールアドレスの最後のドットに続く部分を検証する場合は、このチェックボックスをオンにします。[Additional Top-level Domains] (追加トップレベルドメイン)テーブルを使用して、メールアドレスを検証するベースとするトップレベルドメインを追加します。 -[Check domains with a black list] ( ブラックリストを使ってドメインを確認): [Domain list] (ドメインリスト)テーブルで定義したドメインをブラックリスト記載として検証するには、このオプションを選択します。 -[Check domains with a white list] (ホワイトリストを使ってドメインを確認): [Domain List] (ドメインリスト)テーブルで定義したドメインをホワイトリスト記載として検証するには、このオプションを選択します。

グローバル変数

グローバル変数	ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。 Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。変数の詳細は、コンテキストと変数を使用をご覧ください。

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。

変数の詳細は、コンテキストと変数を使用をご覧ください。

使用方法

使用ルール	このコンポーネントは、所属するSpark Streamingのコンポーネントのパレットと共に、Spark Streamingジョブを作成している場合にだけ表示されます。このコンポーネントは中間ステップとして使用されます。ジョブ全体でのSparkクラスターへの接続を定義するには、[Run] (実行)ビューの[Spark configuration] (Spark設定)タブを使用します。この接続は、ジョブごとに有効になります。 TalendのSpark Streamingジョブの詳細は、Spark Streamingジョブの使い方をご覧ください。特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。
[Spark Connection] (Spark接続)	[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。 Yarnモード(YarnクライアントまたはYarnクラスター): Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。 HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。 Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。 [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。この接続は、ジョブごとに有効になります。

使用ルール

このコンポーネントは、所属するSpark Streamingのコンポーネントのパレットと共に、Spark Streamingジョブを作成している場合にだけ表示されます。

このコンポーネントは中間ステップとして使用されます。

ジョブ全体でのSparkクラスターへの接続を定義するには、[Run] (実行)ビューの[Spark configuration] (Spark設定)タブを使用します。

この接続は、ジョブごとに有効になります。

TalendのSpark Streamingジョブの詳細は、Spark Streamingジョブの使い方をご覧ください。

特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。

Yarnモード(YarnクライアントまたはYarnクラスター):
- Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。
- HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。
- Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
- オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。
[Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。

Apache Spark StreamingのtVerifyEmailプロパティ - Cloud - 8.0

Email validation

基本設定

グローバル変数

使用方法