Standardisation d'adresses provenant de données non structurées - 7.3

Standardisation

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de standardisation
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de standardisation
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de standardisation
Last publication date
2024-02-22

Ce composant est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.

Pour plus de technologies supportées par Talend, consultez Composants Talend.

Dans ce scénario, six composants sont utilisés pour standardiser des adresses provenant de données d'entrée non structurées copiées d'un site Web en les rapprochant des données contenues dans un index, précédemment généré par un Job.

Pour plus d'informations concernant la création d'index, consultez tSynonymOutput.

Glissez-déposez de la Palette dans l'espace de modélisation graphique les composants suivants :

  • Un tFixedFlowInput : contient les données non structurées desquelles extraire les adresses.

  • Un tStandardizeRow : définit les règles de l'adresse et génère les adresses au format XML avec les balises définies. Ceci est le processus de normalisation et de standardisation des données initiales non structurées.

  • Un tFilterColumns : filtre l'adresse standardisée.

  • Un tExtractXMLField : extrait les attributs du nœud Address de l'arborescence XML pour renvoyer en sortie chaque composante de l'adresse dans une colonne typée.

  • Deux tLogRow : servent à afficher les données en sortie. Le premier tLogRow retourne les erreurs s'il y en a. Le second tLogRow affiche le résultat dans la console.

Avant de reproduire ce scénario, vous devez avoir récupéré le contenu d'un index afin de mettre en correspondance les données non structurées avec les données de l'index. Cet index se présente comme suit : <x id="x3427"/>

Les noms des rues de Paris s'affichent à gauche et leurs synonymes utilisés dans les données s'affichent à droite. Les données seront utilisées comme références pour standardiser les données d'adresse collectées depuis un site Web.

Pour reproduire ce scénario, procédez comme dans les sections suivantes.