重複するメールアドレスを特定するtUniqRowコンポーネントを追加するには、以下のようにします:
手順
-
tFileInputDelimitedコンポーネントの次に、新しいaddComponent {}関数とそのサブ関数setComponentDefinition {}を追加してtUniqRowコンポーネントを追加します。
addComponent { setComponentDefinition { TYPE: "tUniqRow", NAME: "tUniqRow_1", POSITION: 416, 192 } }
-
setComponentDefinition {}関数の次に、setSettings {}関数を入力して重複除去プロセスを定義し、コンポーネントのラベルを設定します。
setSettings { UNIQUE_KEY { SCHEMA_COLUMN : "email", KEY_ATTRIBUTE : "true" }, LABEL : "deduplicate" }
-
setSettings {}関数の次に、2つのaddSchema {}関数を入力して、ユニークなメールアドレス用の出力フローと、重複用の出力フローのスキーマを定義します。
addSchema { NAME: "UNIQUE", CONNECTOR: "UNIQUE" addColumn { NAME: "email", TYPE: "id_String" } } addSchema { NAME: "DUPLICATE", CONNECTOR: "DUPLICATE" addColumn { NAME: "email", TYPE: "id_String" } }