Définir les règles de parsing pour standardiser les données - 7.1

Standardization

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de standardisation
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de standardisation
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de standardisation
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le tStandardizeRow pour afficher sa vue Basic settings.
    Ce composant vous permet de définir les règles nécessaires pour standardiser le flux de données d'entrée non structuré et de générer la marque, la finition, la couleur et l'unité de mesure, au format XML.
  2. Dans la liste Column to parse, sélectionnez Long_Description.
  3. Cochez la case Standardize this field.
  4. Définissez vos règles comme suit :
    1. Dans la table Conversion rules, cliquez sur le bouton [+] pour ajouter les colonnes nécessaires à la définition des règles.

      Ce scénario traite des règles de type Index. Pour des exemples détaillés concernant les autres types de règles définis dans la capture d'écran ci-dessus, consultez les autres scénarios du tStandardizeRow.

    2. Définissez trois règles : Brand (marque), Range (finition) et Color (couleur).
    3. Dans la liste Type, sélectionnez Index et renseignez le champ Value avec les variables de contexte des index générés.
      Pour plus d'informations concernant comment créer et utiliser des variables de contexte, consultez le Guide utilisateur du Studio Talend .
    4. Dans la liste Search mode, sélectionnez Match exact. Les modes de recherche sont uniquement applicables aux règles Index.

      Avec le mode Match exact, vous extrayez du flux d'entrée uniquement les chaînes de caractères correspondant exactement aux chaînes de caractères dans l'index de la marque, la finition et la couleur générées avec le composant tSynonymOutput. Pour plus d'informations concernant les modes de recherche disponibles, consultez Modes de recherche pour les règles d'Index.

  5. Cliquez sur le bouton Generate parser code in Routines afin de générer le code sous le dossier Routines, dans la vue DQ Repository, dans la perspective Profiling .
    Cette étape est obligatoire, sinon le Job ne s'exécute pas.
  6. Dans la vue Advanced settings, laissez les options par défaut dans la zone Output format.
    Le paramètre Max edits for fuzzy match est configuré à 1 par défaut.
  7. Double-cliquez sur le tLogRow afin de configurer ses propriétés dans la vue Basic settings.
  8. Dans la zone Mode, sélectionnez l'option Table (print values in cells of a table).
    Ce composant affiche les jetons du flux d'entrée ne pouvant pas être analysés et mis en correspondance par rapport aux chaînes de caractères de l'index.