Apache Spark BatchのtSchemaComplianceCheck - 7.3

Validation (インテグレーション)

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 評価検証
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 評価検証
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 評価検証
Last publication date
2024-02-22

これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtSchemaComplianceCheckを設定するために使われます。

Spark BatchtSchemaComplianceCheckコンポーネントは、データクオリティファミリーに属しています。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。

基本設定

[Base Schema] (基本スキーマ)および[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

現状で処理されるデータのストラクチャーと性質について説明します。

 

[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Base on default schema] (デフォルトのスキーマを基本とする)

このオプションを選択すると、基本スキーマに対してすべてのカラムのチェックが実行されます。

[Custom defined] (カスタム定義)

このオプションを選択すると、特定のカラムに対して特定のチェックが実行されます。このオプションを選択すると、[Checked Columns] (チェック対象カラム)テーブルが表示されます。

[Checked Columns] (確認対象カラム)

このテーブルでは、どのカラムについてどのようなチェックを実行するかを定義します。

 

[Column] (カラム): カラム名を表示します。

 

[Type] (タイプ): 各カラムに含めるデータのタイプを選択します。この検証はすべてのカラムに必須です。

 

[Date pattern] (日付パターン): 各カラムに対して期待される日付フォーマットをDateのデータ型で定義します。

 

[Nullable] (Null可能): 個々のカラムでこのチェックボックスをオンにすると、そのカラムはNULL可能として定義されます。つまり、このカラムの空の行を基本スキーマ定義に関係なく出力フローに移動できるようにします。すべてのカラムをNULL可能として定義するには、テーブルヘッダーのチェックボックスをオンにします。

 

[Max length] (最大長): 個々のカラムでこのチェックボックスをオンにすると、カラムのデータ長を基本スキーマの長さ定義と照合できます。この検証をすべてのカラムに対して実行するには、テーブルヘッダーのチェックボックスをオンにします。

コンプライアンスチェックに他のスキーマを使用

準拠していないデータを拒否するために、期待どおりのデータとなるように参照スキーマを定義します。

データ型、NULL値、または長さに制限がある場合があります。

[Discard the excess content of column when the actual length is greater than the declared length] (実際の長さが宣言された長さよりも大きい場合は、カラムの余分なコンテンツを破棄する)

tSchemaComplianceCheckの3つのモードのいずれかで、このチェックボックスをオンにすると、指定した長さを超えるデータは拒否されずに切り捨てられます。

注:

このオプションは、String型のデータにのみ適用可能です。

詳細設定

[Ignore TimeZone when Check Date] (日付チェック時にタイムゾーンを無視)

日付チェック時にタイムゾーン設定を無視するには、このチェックボックスをオンにします。

[Check all columns from schema] (すべてのカラムをスキーマに対してチェック)モードが選択されている場合は利用できません。

[Treat all empty string as NULL] (空の文字列をすべてNULLと見なす)

このチェックボックスをオンにすると、すべてのカラムの空のフィールドが空の文字列ではなくNULL値として扱われます。

デフォルトでは、このチェックボックスはオンです。このチェックボックスをオフにすると、[Choose Column(s)] (カラムの選択)テーブルが表示され、個々のカラムを選択できるようになります。

グローバル変数

グローバル変数

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + スペースを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、Talend Studioユーザーガイドをご覧ください。

使用方法

使用ルール

このコンポーネントは、中間ステップとして使用されます。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • Quboleを使用する場合は、ジョブにtS3Configurationを追加し、QuboleでS3システム内に実際のビジネスデータを書き込みます。tS3Configurationを使用しないと、このビジネスデータはQubole HDFSシステムに書き込まれ、クラスターをシャットダウンすると破棄されます。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。