Dédoublonner les adresses e-mail - Cloud - 7.3

Guide de référence des scripts de Jobs Talend

Version
Cloud
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Talend CommandLine
Content
Création et développement > Création de Jobs
Last publication date
2023-09-13

Utilisez la procédure ci-dessous pour ajouter et configurer un tUniqRow qui sera utilisé pour identifier les adresses e-mail en doublon.

Procédure

  1. À côté du composant tFileInputDelimited, ajoutez une nouvelle fonction addComponent {} et sa sous-fonction setComponentDefinition {} pour ajouter le composant tUniqRow.
    addComponent {
    	setComponentDefinition {
    		TYPE: "tUniqRow",
    		NAME: "tUniqRow_1",
    		POSITION: 416, 192
    	}
    
    }
  2. À côté de la fonction setComponentDefinition {}, saisissez la fonction setSettings {} pour définir le processus de dédoublonnage et nommer le composant.
    	setSettings {
    		UNIQUE_KEY {
    			SCHEMA_COLUMN : "email",
    			KEY_ATTRIBUTE : "true"
    		},
    		LABEL : "deduplicate"
    	}
  3. À côté de la fonction setSettings {}, saisissez deux fonctions addSchema {} pour définir les schémas des flux de sortie, un pour les adresses e-mail uniques et l'autre pour les doublons.
    	addSchema {
    		NAME: "UNIQUE",
    		CONNECTOR: "UNIQUE"
    		addColumn {
    			NAME: "email",
    			TYPE: "id_String"
    		}
    	}
    	addSchema {
    		NAME: "DUPLICATE",
    		CONNECTOR: "DUPLICATE"
    		addColumn {
    			NAME: "email",
    			TYPE: "id_String"
    		}
    	}