Dédoublonner les adresses e-mail - 6.5

Guide de référence des scripts de Jobs Talend

EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
Talend CommandLine
task
Création et développement > Création de Jobs

Utilisez la procédure ci-dessous pour ajouter et configurer un tUniqRow qui sera utilisé pour identifier les adresses e-mail en doublon.

Procédure

  1. À côté du composant tFileInputDelimited, ajoutez une nouvelle fonction addComponent {} et sa sous-fonction setComponentDefinition {} pour ajouter le composant tUniqRow.
    addComponent {
    	setComponentDefinition {
    		TYPE: "tUniqRow",
    		NAME: "tUniqRow_1",
    		POSITION: 416, 192
    	}
    
    }
  2. À côté de la fonction setComponentDefinition {}, saisissez la fonction setSettings {} pour définir le processus de dédoublonnage et nommer le composant.
    	setSettings {
    		UNIQUE_KEY {
    			SCHEMA_COLUMN : "email",
    			KEY_ATTRIBUTE : "true"
    		},
    		LABEL : "deduplicate"
    	}
  3. À côté de la fonction setSettings {}, saisissez deux fonctions addSchema {} pour définir les schémas des flux de sortie, un pour les adresses e-mail uniques et l'autre pour les doublons.
    	addSchema {
    		NAME: "UNIQUE",
    		CONNECTOR: "UNIQUE"
    		addColumn {
    			NAME: "email",
    			TYPE: "id_String"
    		}
    	}
    	addSchema {
    		NAME: "DUPLICATE",
    		CONNECTOR: "DUPLICATE"
    		addColumn {
    			NAME: "email",
    			TYPE: "id_String"
    		}
    	}