Accéder au contenu principal Passer au contenu complémentaire

Configurer la standardisation des données non structurées

Pourquoi et quand exécuter cette tâche

Pour définir un espace de noms :

Procédure

  1. Reliez le tFixedFlowInput au tStandardizeRow à l'aide d'un lien Row > Main.
  2. Double-cliquez sur le composant tStandardizeRow pour afficher sa vue Basic settings.
    Les règles de type avancé sont toujours exécutées après les règles spécifiques ANTLR.
  3. Dans la liste Column to parse, sélectionnez input.
  4. Cochez la case Standardize this field.
  5. Dans le tableau Conversion rules, cliquez six fois sur le bouton [+] afin d'ajouter six colonnes. Nommez les et configurez les comme illustré dans la capture d'écran. Pour la règle "StreetName" :
    1. Sélectionnez le type Index dans la liste Type.
    2. Saisissez le chemin d'accès à votre index dans le champ Value.
      Configurez le chemin d'accès au fichier comme suit :
      • En mode local :
        • Apache Spark 3.1 et versions précédentes : prefix://file path ou file:///file path.
        • Apache Spark 3.2 et supérieures : file:///file path.
      • En modes Standalone et Yarn : prefix://file path.
      • Si l'index se situe dans un cluster : hdfs://hdpnameservice1/file path.
    3. Sélectionnez Match exact comme mode de recherche dans la liste Search mode.
      En utilisant le mode Match exact, vous extrayez du flux d'entrée uniquement les chaînes de caractères correspondant exactement aux index des noms de rues. Pour plus d'informations concernant les modes de recherche disponibles, consultez Modes de recherche pour les règles d'Index.
    Les autres règles sont :

    Nom

    Type

    Valeur

    zip

    Format

    " DIGIT DIGIT DIGIT DIGIT DIGIT "

    City Énumération

    " 'Paris' | 'Paris' | 'PARIS' | 'Bagnolet' "

    "SpecialStreetNumber" Format

    " (INT ('bis'|'ter')) | ( INT '-' INT) "

    "INT" Forme

    "<SpecialStreetNumber>"

    address Forme

    " <INT> <StreetName> <Zip> <City> "

    Ces règles étant de type avancé, elles sont toujours exécutées après les règles spécifiques ANTLR. Les règles simples &quot;Zip&quot;, &quot;City&quot; et &quot;SpecialStreetNumber&quot; sont exécutées en premier, suivies des règles avancées, &quot;INT&quot; et &quot;Address&quot;.

  6. Cliquez sur le bouton Generate parser code in Routines afin de générer le code dans les Routines.
    Si vous ne cliquez pas sur ce bouton, le Job ne pourra pas s'exécuter.
  7. Dans la vue Advanced settings, laissez les options par défaut dans la zone Output format.
    Le paramètre Max edits for fuzzy match est configuré à 1 par défaut.
  8. Dans l'espace de modélisation graphique, cliquez-droit sur le tStandardizeRow pour le relier au tLogRow du dessous, à l'aide d'un lien Row > Reject.
  9. Double-cliquez sur le tLogRow lié au tStandardizeRow afin d'afficher sa vue Basic settings.
  10. Dans la zone Mode, sélectionnez l'option Table (print values in cells of a table).

Résultats

Configurez le filtrage et l'extraction des données qui vous intéressent.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !