Modes de recherche pour les règles d'Index - 7.3

Standardisation

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de standardisation
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de standardisation
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de standardisation
Last publication date
2024-02-22

Un type de règle avancée utilisé par le composant tStandardizeRow est Index. Les règles Index utilisent des index de synonymes en tant que référence dans lesquelles chercher des correspondances de données.

Utiliser une règle Index sans avoir la possibilité de spécifier quel type de correspondance (exacte, partielle, floue, etc.) utiliser sur le flux d'entrée ne permet pas de standardiser et d'écrire en sortie les données attendues. Le tStandardizeRow vous permet de sélectionner l'un des modes de recherche suivants pour chaque règle Index définie dans le composant :

Mode de recherche

Description

Match all

chaque mot de la chaîne de caractères d'entrée doit exister dans la chaîne de caractères de l'index, mais la chaîne de l'index peut également d'autres mots.

Match all fuzzy

chaque mot de la chaîne de caractères d'entrée doit correspondre à des mots similaires de la chaîne de caractères dans l'index.

Match any

la chaîne de caractères d'entrée doit avoir au moins un mot correspondant à un des mots de la chaîne de caractères de l'index.

Match any fuzzy

la chaîne de caractères d'entrée doit avoir au moins un mot similaire à un mot de la chaîne de caractères de l'index.

Match exact

la chaîne de caractères exacte doit correspondre à la chaîne de caractères exacte de l'index.

Match partial

chaque mot de la chaîne de caractères d'entrée doit exister dans la chaîne de caractères de l'index, mais la chaîne de caractères d'entrée peut contenir d'autres mots, dans une certaine limite, 1 par défaut. Cela signifie qu'un mot de la chaîne de caractères d'entrée peut ne pas correspondre à un mot de la chaîne de caractères de l'index.

Par exemple, si vous avez cet enregistrement dans le flux d'entrée :
DULUX PAINTPOD EXTRA REACH HANDLE

Si vous avez créé un index par couleur contenant la chaîne de caractères Extra Deep Base.

Si vous définissez une règle Index dans le tStandardizeRow et que vous configurez le mode de recherche à Match any, le composant retourne Extra Deep Base comme couleur pour l'enregistrement ci-dessus, car le mot Extra correspond à la chaîne de caractères de l'index. Si vous souhaitez que le composant retourne uniquement une correspondance lorsque la chaîne de caractères exacte est trouvée dans l'index, vous pouvez configurer le mode de recherche à Match exact. Le composant ne retournera pas de couleur pour cet enregistrement.

Pour un exemple de Job, consultez le Extraction de correspondances exactes à l'aide des règles d'Index.