Standardiser des adresses provenant de données non structurées - 7.1

Standardization

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de standardisation
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de standardisation
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de standardisation
EnrichPlatform
Studio Talend

Ce composant est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Dans ce scénario, six composants sont utilisés pour standardiser des adresses provenant de données d'entrée non structurées copiées d'un site Web en les rapprochant des données contenues dans un index, précédemment généré par un Job.

Pour plus d'informations concernant la création d'index, consultez tSynonymOutput.

Glissez-déposez de la Palette dans l'espace de modélisation graphique les composants suivants :

  • Un tFixedFlowInput : contient les données non structurées desquelles extraire les adresses.

  • Un tStandardizeRow : définit les règles de l'adresse et génère les adresses au format XML avec les balises définies. Ceci est le processus de normalisation et de standardisation des données initiales non structurées.

  • Un tFilterColumns : filtre l'adresse standardisée.

  • Un tExtractXMLField : extrait les attributs du nœud Address de l'arborescence XML pour renvoyer en sortie chaque composante de l'adresse dans une colonne typée.

  • Deux tLogRow : servent à afficher les données en sortie. Le premier tLogRow retourne les erreurs s'il y en a. Le second tLogRow affiche le résultat dans la console.

Avant de reproduire ce scénario, vous devez avoir récupéré le contenu d'un index afin de mettre en correspondance les données non structurées avec les données de l'index. Cet index se présente comme suit : <x id="x3427"/>

Les noms des rues de Paris s'affichent à gauche et leurs synonymes utilisés dans les données s'affichent à droite. Les données seront utilisées comme références pour standardiser les adresses collectées depuis le site Web, par exemple http://paris.conciergerie.com/travel_paris/address.php.

Pour reproduire ce scénario, procédez comme dans les sections suivantes.