tSchemaComplianceCheck MapReduceプロパティ(非推奨) - 7.3

Validation (インテグレーション)

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 評価検証
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 評価検証
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 評価検証
Last publication date
2024-02-22

これらのプロパティは、MapReduceジョブのフレームワークで実行されているtSchemaComplianceCheckを設定するために使われます。

MapReduce tSchemaComplianceCheckコンポーネントは、データクオリティファミリーに属しています。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。

MapReduceのフレームワークは、Talend 7.3以降非推奨となります。Apache SparkのTalendジョブを使って、インテグレーションタスクを実行します。

基本設定

[Base Schema] (基本スキーマ)および[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

現状で処理されるデータのストラクチャーと性質について説明します。

[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Check all columns from schema] (すべてのカラムをスキーマに対してチェック)

このオプションを選択すると、基本スキーマに対してすべてのカラムのチェックが実行されます。

[Custom defined] (カスタム定義)

このオプションを選択すると、特定のカラムに対して特定のチェックが実行されます。このオプションを選択すると、[Checked Columns] (確認対象カラム)テーブルが表示されます。

[Checked Columns] (確認対象カラム)

このテーブルでは、どのカラムについてどのようなチェックを実行するかを定義します。このテーブルは[Custom defined] (カスタム定義)オプションを選択すると表示されます。

 

[Column] (カラム): カラム名を表示します。

 

[Type] (タイプ): 各カラムに含めるデータのタイプを選択します。この検証はすべてのカラムに必須です。

 

[Date pattern] (日付パターン): 各カラムに対して期待される日付フォーマットをDateのデータ型で定義します。

 

[Nullable] (Null可能): 個々のカラムでこのチェックボックスをオンにすると、そのカラムはNULL可能として定義されます。つまり、このカラムの空の行を基本スキーマ定義に関係なく出力フローに移動できるようにします。すべてのカラムをNULL可能として定義するには、テーブルヘッダーのチェックボックスをオンにします。

 

[Max length] (最大長): 個々のカラムでこのチェックボックスをオンにすると、カラムのデータ長を基本スキーマの長さ定義と照合できます。この検証をすべてのカラムに対して実行するには、テーブルヘッダーのチェックボックスをオンにします。

コンプライアンスチェックに他のスキーマを使用

準拠していないデータを拒否するために、期待どおりのデータとなるように参照スキーマを定義します。

データ型、NULL値、または長さに制限がある場合があります。

[Trim the excess content of column when length checking chosen and the length is greater than defined length] (長さチェックが選択され、定義された長さを超える場合はカラムの余分なコンテンツを切り捨て)

tSchemaComplianceCheckの3つのモードのいずれかで、このチェックボックスをオンにすると、指定した長さを超えるデータは拒否されずに切り捨てられます。

注:

このオプションは、String型のデータにのみ適用可能です。

詳細設定

[Use Fastest Date Check] (最速日付チェックを使用)

日付パターンが定義されていない場合に Talend DateシステムルーチンのTalendDate.isDate()メソッドを使用して高速日付形式チェックを実行するには、このチェックボックスをオンにします。ルーチンの詳細は、『Talend Studio ユーザーガイド』を参照してください。

[Ignore TimeZone when Check Date] (日付チェック時にタイムゾーンを無視)

日付チェック時にタイムゾーン設定を無視するには、このチェックボックスをオンにします。

[Check all columns from schema] (すべてのカラムをスキーマに対してチェック)モードが選択されている場合は利用できません。

[Treat all empty string as NULL] (空の文字列をすべてNULLと見なす)

このチェックボックスをオンにすると、すべてのカラムの空のフィールドが空の文字列ではなくNULL値として扱われます。

デフォルトでは、このチェックボックスはオンです。このチェックボックスをオフにすると、[Choose Column(s)] (カラムの選択)テーブルが表示され、個々のカラムを選択できるようになります。

グローバル変数

グローバル変数

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + スペースを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、Talend Studioユーザーガイドをご覧ください。

使用方法

使用ルール

Talend Map/Reduceジョブでは、このコンポーネントは、中間ステップとして使用されますが、併用する他のコンポーネントもMap/Reduceのコンポーネントにする必要があります。Hadoopで直接実行できるネイティブMap/Reduceコードを生成します。

Object (オブジェクト)型およびList (リスト)型をサポートしていません。

Talend Map/Reduceジョブの詳細は、Talend Big Data入門ガイドTalend Map/Reduceジョブを作成、変換、設定する方法のセクションをご覧ください 。

本書では、特に明記されていない限り、標準ジョブ、つまり従来の Talend データ統合ジョブ、およびMap/Reduce以外のジョブのシナリオで説明しています。