Dédoublonner les adresses e-mail

Guide de référence des scripts de Jobs Talend

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Real-Time Big Data Platform
Talend Data Integration
Talend Data Fabric
Talend Big Data
Talend Big Data Platform
Talend ESB
Talend Data Services Platform
Talend Data Management Platform
Talend MDM Platform
task
Création et développement > Création de Jobs
EnrichPlatform
Talend CommandLine
Studio Talend

Utilisez la procédure ci-dessous pour ajouter et configurer un tUniqRow qui sera utilisé pour identifier les adresses e-mail en doublon.

Procédure

  1. À côté du composant tFileInputDelimited, ajoutez une nouvelle fonction addComponent {} et sa sous-fonction setComponentDefinition {} pour ajouter le composant tUniqRow.
    addComponent {
    	setComponentDefinition {
    		TYPE: "tUniqRow",
    		NAME: "tUniqRow_1",
    		POSITION: 416, 192
    	}
    
    }
  2. À côté de la fonction setComponentDefinition {}, saisissez la fonction setSettings {} pour définir le processus de dédoublonnage et libeller le composant.
    	setSettings {
    		UNIQUE_KEY {
    			SCHEMA_COLUMN : "email",
    			KEY_ATTRIBUTE : "true"
    		},
    		LABEL : "deduplicate"
    	}
  3. À côté de la fonction setSettings {}, saisissez deux fonctions addSchema {} pour définir les schémas des flux de sortie, un pour les adresses e-mail uniques et l'autre pour les doublons.
    	addSchema {
    		NAME: "UNIQUE",
    		CONNECTOR: "UNIQUE"
    		addColumn {
    			NAME: "email",
    			TYPE: "id_String"
    		}
    	}
    	addSchema {
    		NAME: "DUPLICATE",
    		CONNECTOR: "DUPLICATE"
    		addColumn {
    			NAME: "email",
    			TYPE: "id_String"
    		}
    	}