Propriétés du tDataQualityRules pour Apache Spark Streaming - Cloud - 8.0

Validation (Intégration)

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de validation (Intégration)
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de validation (Intégration)
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de validation (Intégration)
Last publication date
2024-02-21

Ces propriétés sont utilisées pour configurer le tDataQualityRules s'exécutant dans le framework de Jobs Spark Streaming.

Le composant tDataQualityRules Spark Streaming appartient à la famille Qualité de données.

Paramètres simples

Output Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant.

Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job.

Sélectionnez le type de schéma dans la liste Schema :
  • Built-in : le schéma est créé et conservé localement pour ce composant seulement.

  • Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets.

Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :

View schema : sélectionnez cette option afin de voir uniquement le schéma.

Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs.

Les types supportés sont : Boolean, Date, Double, Float, Integer, Long, Short et String.

Application Sélectionnez l'application de laquelle vous souhaitez récupérer les règles de qualité de données.

Cette option est disponible à partir de la version 8.0 R2024-01 du Studio Talend.

URL
Important : Vous avez besoin de l'autorisation Rules - View (Règles - Visualisation) pour récupérer les règles. Pour plus d'informations, consultez les Rôles utilisateurs·rices prédéfinis relatifs à l'application que vous utilisez.
Saisissez l'URL de l'application sélectionnée dans la liste déroulante Application. Lorsque l'URL ne correspond pas à l'application sélectionnée, le Job peut échouer. Les URL suivantes sont supportées :
  • Talend Cloud Data Stewardship, ou la version hybride de Talend Data Stewardship 8.0 R2022-07 ou une version supérieure :
    https://tds.<env>.cloud.talend.com/rulerepository/api/v1
    https://tds.<env>.cloud.talend.com/rulerepository/api/v1/
    https://tds.<env>.cloud.talend.com/rulerepository
    https://tds.<env>.cloud.talend.com/rulerepository/
    https://tds.<env>.cloud.talend.com (Only for Talend Cloud Data Stewardship)
    https://tds.<env>.cloud.talend.com/ (Only for Talend Cloud Data Stewardship)

    Lorsque vous utilisez la version hybride, vous pouvez utiliser une URL avec l'adresse IP ou le nom d'hôte :

    https://ip:19999/rulerepository/api/v1
    https://ip:19999/rulerepository/api/v1/
    https://ip:19999/rulerepository
    https://ip:19999/rulerepository/
    https://hostname:19999/rulerepository/api/v1
    https://hostname:19999/rulerepository/api/v1/         
    https://hostname:19999/rulerepository
    https://hostname:19999/rulerepository/
  • Talend Cloud Data Inventory, à partir de la version 8.0 R2023-06 du Studio Talend :
    https://tdc.<env>.cloud.talend.com/rulerepository/api/v1
    https://tdc.<env>.cloud.talend.com/rulerepository/api/v1/
    https://tdc.<env>.cloud.talend.com/rulerepository
    https://tdc.<env>.cloud.talend.com/rulerepository/
    https://tdc.<env>.cloud.talend.com
    https://tdc.<env>.cloud.talend.com/ 
où <env> est le nom de votre région Cloud. Consultez URL et régions de Talend Cloud.
Token Saisissez votre jeton d'accès personnel. Pour en générer un, consultez https://help.talend.com/r/fr-FR/Cloud/management-console-user-guide/cloud-access-token.
DQ rule library timestamp Après avoir saisi l'URL et le jeton, cliquez sur Refresh.

Si l'URL et le jeton sont corrects, les règles de qualité de données sont récupérées dans le Studio Talend : yyyy-MM-dd hh:mm:ss (library_number).

Lorsque vous mettez à jour les règles de qualité de données dans une application Cloud ou hybride, cliquez sur Refresh (Actualiser) pour récupérer la dernière version.

Configure DQ rules Associez les variables de la règle aux données d'entrée.
Les règles sont récupérées depuis la bibliothèque :
  • DQ Rule : sélectionnez la règle.
  • Rule variable : les variables de la règle sont automatiquement récupérées.
  • Input column : sélectionnez la colonne contenant les valeurs devant remplacer la variable.
Si aucune règle ou colonne d'entrée n'est disponible, vérifiez que :
  • Les règles de qualité de données ont été récupérées dans DQ rule library timestamp (Horodatage des bibliothèques de règles DQ).
  • Le schéma d'entrée est correct.

Vous pouvez associer les types de données provenant du Studio Talend à des types de données provenant de l'application. Consultez Associating data types (Associer les types de données) ci-dessous.

Pour appliquer plus de règles, cliquez sur .

Associer des types de données

Le tableau suivant décrit les types de données que vous pouvez associer.
Variable de règle provenant de l'application* Colonne d'entrée (depuis Studio Talend)
Nombre Double, Float, Integer, Long, Short et String
Booléen Booléen
Text Chaîne de caractères
Date Date
* Vous pouvez saisir l'URL de :
  • Talend Cloud Data Stewardship,
  • la version hybride 8.0 R2022-07 ou supérieure de Talend Data Stewardship,
  • Talend Cloud Data Inventory, à partir de la version 8.0 R2023-06 du Studio Talend.

Paramètres avancés

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de traitement du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.