メイン コンテンツをスキップする 補完的コンテンツへスキップ

Apache Spark BatchのtDataQualityRulesプロパティ

これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtDataQualityRulesを設定するために使われます。

Spark BatchのtDataQualityRules コンポーネントは、データクオリティファミリーに属しています。

基本設定

[Output schema] (出力スキーマ)および[Edit schema] (スキーマを編集)

スキーマは行の説明のことで、処理された後に次のコンポーネントに渡されるフィールド(カラム)の数を定義するものです。

ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。

[Schema] (スキーマ)のタイプを選択します。
  • [Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

  • [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

[View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

[Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

[Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。

サポートされているタイプは、Boolean、Date、Double、Float、Integer、Long、Short、Stringです。

アプリケーション データクオリティルールの取得元としたいアプリケーションを選択します。

このオプションはStudio Talend 8.0 R2024-01以降で利用できます。

[URL]
情報メモ重要: ルールを取得するためには、[Rules - View] (ルール - 表示)権限が必要です。詳細は、使用しているアプリの事前定義済みユーザーロールをご覧ください。
[Application] (アプリケーション)ドロップダウンリストから選択されたアプリのURLを入力します。選択したアプリとURLが一致しない場合、ジョブが失敗することがあります。サポートされているURLは次のとおりです。
  • Talend Cloud Data Stewardship、またはTalend Data Stewardship 8.0 R2022-07以降のハイブリッドバージョン
    https://tds.<env>.cloud.talend.com/rulerepository/api/v1
    https://tds.<env>.cloud.talend.com/rulerepository/api/v1/
    https://tds.<env>.cloud.talend.com/rulerepository
    https://tds.<env>.cloud.talend.com/rulerepository/
    https://tds.<env>.cloud.talend.com (Only for Talend Cloud Data Stewardship)
    https://tds.<env>.cloud.talend.com/ (Only for Talend Cloud Data Stewardship)

    ハイブリッドバージョンを使う場合は、IPアドレスかホスト名でURLを使用できます:

    https://ip:19999/rulerepository/api/v1
    https://ip:19999/rulerepository/api/v1/
    https://ip:19999/rulerepository
    https://ip:19999/rulerepository/
    https://hostname:19999/rulerepository/api/v1
    https://hostname:19999/rulerepository/api/v1/         
    https://hostname:19999/rulerepository
    https://hostname:19999/rulerepository/
  • Talend Cloud Data Inventory (Studio Talend 8.0 R2023-06以降):
    https://tdc.<env>.cloud.talend.com/rulerepository/api/v1
    https://tdc.<env>.cloud.talend.com/rulerepository/api/v1/
    https://tdc.<env>.cloud.talend.com/rulerepository
    https://tdc.<env>.cloud.talend.com/rulerepository/
    https://tdc.<env>.cloud.talend.com
    https://tdc.<env>.cloud.talend.com/ 
<env>の部分にはお使いのクラウドリージョンが入ります。詳細は、Talend CloudのリージョンとURLをご覧ください。
トークン パーソナルアクセストークンを入力します。パーソナルアクセストークンを生成する場合は、https://help.talend.com/r/ja-JP/Cloud/management-console-user-guide/cloud-access-tokenをご覧ください。
[DQ rule library timestamp] (DQルールライブラリーのタイムスタンプ) URLとトークンを入力したら、[Refresh] (更新)をクリックします。

URLとトークンが正しければ、データクオリティルールはyyyy-MM-dd hh:mm:ss (library_number)という形式でStudio Talendに取得されます。

クラウドやハイブリッドバージョンでデータクオリティルールをアップデートする場合は、[Refresh] (更新)をクリックして最新バージョンを取得します。

[Configure DQ rules] (DQルールを設定) ルールの変数を入力データに関連付けます。
ルールはライブラリーから取得されます。
  • [DQ Rule] (DQルール): ルールを選択します。
  • [Rule variable] (ルール変数): ルールの変数は自動的に取得されます。
  • [Input column] (入力カラム): 変数を置き換える必要がある値が含まれているカラムを選択します。
利用できるルールや入力カラムがない場合は、次の点をご確認ください。
  • [DQ rule library timestamp] (DQルールライブラリーのタイムスタンプ)でデータクオリティルールが取得されたこと
  • 入力スキーマが正しいこと

Studio Talendのデータ型は、Talend Cloud Data StewardshipやハイブリッドTalend Data Stewardshipのデータ型の一部に関連付けることができます。下のデータ型を関連付けをご覧ください。

他のルールを適用する場合は、をクリックします。

データ型を関連付け

関連付けることができるデータ型は次のとおりです。
アプリからのルール変数 * 入力カラム(Studio Talendより)
Number Double、Float、Integer、Long、Short、String
Boolean Boolean
Text 文字列
Date 日付
* 次のURLを入力できます。
  • Talend Cloud Data Stewardship
  • Talend Data Stewardship 8.0 R2022-07以降のハイブリッドバージョン
  • Talend Cloud Data Inventory (Studio Talend 8.0 R2023-06以降)

詳細設定

[tStatCatcher statistics] (tStatCatcher統計)

このチェックボックスを選択すると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。