Configurer la standardisation des données non structurées

Configurer la standardisation des données non structurées - 7.3

Standardisation

Version

7.3

Language

Français

Product

Talend Big Data

Talend Big Data Platform

Talend Data Fabric

Talend Data Integration

Talend Data Management Platform

Talend Data Services Platform

Talend ESB

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Studio Talend

Content

Création et développement > Systèmes tiers > Composants Data Quality > Composants de standardisation

Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de standardisation

Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de standardisation

Last publication date

2024-02-22

Pourquoi et quand exécuter cette tâche

Pour définir un espace de noms :

Procédure

Reliez le tFixedFlowInput au tStandardizeRow à l'aide d'un lien Row > Main.
Double-cliquez sur le composant tStandardizeRow pour afficher sa vue Basic settings.

Les règles de type avancé sont toujours exécutées après les règles spécifiques ANTLR.
Dans la liste Column to parse, sélectionnez input.
Cochez la case Standardize this field.

Dans le tableau Conversion rules, cliquez six fois sur le bouton [+] afin d'ajouter six colonnes. Nommez les et configurez les comme illustré dans la capture d'écran. Pour la règle "StreetName" :

Sélectionnez le type Index dans la liste Type.
Saisissez le chemin d'accès à votre index dans le champ Value. Avant le chemin, saisissez le protocole : file:// ou hdfs:// si l'index est dans un cluster.
Sélectionnez Match exact comme mode de recherche dans la liste Search mode.
En utilisant le mode Match exact, vous extrayez du flux d'entrée uniquement les chaînes de caractères correspondant exactement aux index des noms de rues. Pour plus d'informations concernant les modes de recherche disponibles, consultez Modes de recherche pour les règles d'Index.

Les autres règles sont :

Nom	Type	Valeur
zip	Format	`" DIGIT DIGIT DIGIT DIGIT DIGIT "`
City	Énumération	`" 'Paris' \| 'Paris' \| 'PARIS' \| 'Bagnolet' "`
"SpecialStreetNumber"	Format	`" (INT ('bis'\|'ter')) \| ( INT '-' INT) "`
"INT"	Forme	`"<SpecialStreetNumber>"`
address	Forme	`" <INT> <StreetName> <Zip> <City> "`

Ces règles étant de type avancé, elles sont toujours exécutées après les règles spécifiques ANTLR. Les règles simples "Zip", "City" et "SpecialStreetNumber" sont exécutées en premier, suivies des règles avancées, "INT" et "Address".

Cliquez sur le bouton Generate parser code in Routines afin de générer le code dans les Routines.
Si vous ne cliquez pas sur ce bouton, le Job ne pourra pas s'exécuter.
Dans la vue Advanced settings, laissez les options par défaut dans la zone Output format.
Le paramètre Max edits for fuzzy match est configuré à 1 par défaut.
Dans l'espace de modélisation graphique, cliquez-droit sur le tStandardizeRow afin de le relier au tLogRow du dessous, à l'aide d'un lien Row > Reject.
Double-cliquez sur le tLogRow lié au tStandardizeRow afin d'afficher sa vue Basic settings.
Dans la zone Mode, sélectionnez l'option Table (print values in cells of a table).

Résultats

Configurez le filtrage et l'extraction des données qui vous intéressent.