Configurer la standardisation des données non structurées - 7.1

Standardization

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de standardisation
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de standardisation
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de standardisation
EnrichPlatform
Studio Talend

Pourquoi et quand exécuter cette tâche

Pour définir un espace de nommage :

Procédure

  1. Reliez le tFixedFlowInput au tStandardizeRow à l'aide d'un lien Row > Main.
  2. Double-cliquez sur le composant tStandardizeRow pour afficher sa vue Basic settings.
    Les règles de type avancé sont toujours exécutées après les règles spécifiques ANTLR.
  3. Dans la liste Column to parse, sélectionnez input.
  4. Cochez la case Standardize this field.
  5. Dans le tableau Conversion rules, cliquez six fois sur le bouton [+] afin d'ajouter six colonnes. Nommez les et configurez les comme illustré dans la capture d'écran. Pour la règle "StreetName" :
    1. Sélectionnez le type Index dans la liste Type.
    2. Saisissez le chemin d'accès à votre index dans le champ Value. Avant le chemin, saisissez le protocole : file:// ou hdfs:// si l'index est dans un cluster.
    3. Sélectionnez Match exact comme mode de recherche dans la liste Search mode.
      En utilisant le mode Match exact, vous extrayez du flux d'entrée uniquement les chaînes de caractères correspondant exactement aux index des noms de rues. Pour plus d'informations concernant les modes de recherche disponibles, consultez Modes de recherche pour les règles d'Index.
    Les autres règles sont :

    Nom

    Type

    Valeur

    zip

    Format

    " DIGIT DIGIT DIGIT DIGIT DIGIT "

    City Énumération

    " 'Paris' | 'Paris' | 'PARIS' | 'Bagnolet' "

    "SpecialStreetNumber" Format

    " (INT ('bis'|'ter')) | ( INT '-' INT) "

    "INT" Forme

    "SpecialStreetNumber"

    address Forme

    " <INT> <StreetName> <Zip> <City> "

    Ces règles étant de type avancé, elles sont toujours exécutées après les règles spécifiques ANTLR. Les règles simples &quot;Zip&quot;, &quot;City&quot; et &quot;SpecialStreetNumber&quot; sont exécutées en premier, suivies des règles avancées, &quot;INT&quot; et &quot;Address&quot;.

  6. Cliquez sur le bouton Generate parser code in Routines afin de générer le code dans les Routines.
    Si vous ne cliquez pas sur ce bouton, le Job ne pourra pas s'exécuter.
  7. Dans la vue Advanced settings, laissez les options par défaut dans la zone Output format.
    Le paramètre Max edits for fuzzy match est configuré à 1 par défaut.
  8. Dans l'espace de modélisation graphique, cliquez-droit sur le tStandardizeRow afin de le relier au tLogRow du dessous, à l'aide d'un lien Row > Reject.
  9. Double-cliquez sur le tLogRow lié au tStandardizeRow afin d'afficher sa vue Basic settings.
  10. Dans la zone Mode, sélectionnez l'option Table (print values in cells of a table).

Résultats

Configurez le filtrage et l'extraction des données qui vous intéressent.