Normaliser les données à l'aide de règles de type simple - 7.1

Standardization

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de standardisation
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de standardisation
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de standardisation
EnrichPlatform
Studio Talend

Ce composant est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.

Pour plus d'informations concernant les technologies supportées par Talend, consultez Composants Talend.

Dans ce scénario, deux étapes successives sont effectuées afin de :

  1. normaliser les données entrantes (séparer les données conformes des données non conformes) ;

  2. extraire les données souhaitées et les afficher.

Avant de reproduire ces étapes, vous devez analyser les données source afin de déterminer les règles à rédiger. Pour ce scénario, les données source sont stockées dans un fichier .csv appelé partsmaster.

Le fichier contient un total de 59 lignes de données brutes, mais certaines d'entre elles n'apparaissent pas sur la capture ci-dessus.

En observant les données, vous pouvez anticiper que la troisième ligne ne sera pas reconnue car elle contient des caractères asiatiques. De plus, vous pouvez déterminer que :

  • les données SKU contiennent 34-9923, XC-3211, pb710125, etc. De ce fait, la règle utilisée pour analyser les données SKU peut être :

    Nom

    Type

    Valeur

    "SKU"

    "Format"

    "(DIGIT DIGIT|LETTER LETTER) '-'? DIGIT DIGIT DIGIT DIGIT (DIGIT DIGIT?)? "

  • pour les données Size, le format correct est la multiplication de deux ou trois longueurs (length) ajoutée aux unités de longueur (length unit). De ce fait, les règles utilisées pour analyser les données Size peuvent être :

    Nom

    Type

    Valeur

    "LengthUnit"

    "Enumeration"

    " 'm' | '\'' | 'inch' | 'inches' | '\"'"

    "BY"

    "Enumeration"

    "'X' | 'x' | 'by' "

    Length

    Format

    "(INT | FRACTION | DECIMAL) WHITESPACE* LengthUnit "

    "Size"

    "Combination"

    "Length BY Length BY Length"

    "Size"

    "Combination"

    "Length BY Length"

Puisque deux règles Combination utilisent le même nom, elles seront exécutées par ordre décroissant comme présenté dans ce tableau.

  • pour les données Weight, le format correct est le poids (weight) ajouté à l'unité de poids (weight unit). De ce fait, les règles utilisées pour analyser les données  Weight peuvent être :

    Nom

    Type

    Valeur

    "WeightUnit"

    "Enumeration"

    " 'lb' | 'lbs' | 'pounds' | 'Kg' | 'pinds'"

    Weight

    Format

    "(INT | FRACTION | DECIMAL) WHITESPACE* WeightUnit "

Vous pouvez à présent commencer à reproduire les deux étapes de ce scénario.