Pourquoi et quand exécuter cette tâche
Après avoir configuré et regroupé les données d'entrée, vous devez créer le flux de consolidation à l'aide du composant tRuleSurvivorship. Pour ce faire, procédez comme suit :
Procédure
-
Double-cliquez sur le tRuleSurvivorship
pour ouvrir sa vue Component.
- Dans la liste Group Identifier, sélectionnez GID, puis, dans la liste Group size, sélectionnez GRP_SIZE.
- Dans le champ Rule package name, saisissez le nom de l'ensemble de règles que vous devez créer afin de définir le flux de consolidation. Dans cet exemple, le nom est org.talend.survivorship.sample.
-
Dans la table Rule table, cliquez sur le bouton
[+] pour ajouter autant de lignes que
nécessaire et renseignez-les à l'aide des définitions des règles
correspondantes. Dans cet exemple, ajoutez dix lignes et renseignes-les à l'aide
du tableau suivant :
Order
Rule name
Reference column
Function
Value
Target column
Sequential
"1_LengthAcct"
acctName
Expression
".length >11"
acctName
Sequential
"2_LongestAddr"
addr
Longest
n/a
addr
Sequential
"3_HighCredibility
"credibility
Expression
"> 3"
credibility
Sequential
"4_MostCommonCity"
city
Most common
n/a
city
Sequential
"5_MostCommonZip"
zip
Most common
n/a
zip
Multi-condition
n/a
zip
Match regex
"\\d{5}"
n/a
Multi-target
n/a
n/a
n/a
n/a
state
Multi-target
n/a
n/a
n/a
n/a
country
Sequential
"6_LatestPhone"
date
Most recent
n/a
phone
Multi-target
n/a
n/a
n/a
n/a
date
N'utilisez pas de caractère spécial dans le nom des règles, sinon le Job risque de ne pas s'exécuter correctement.Ces règles sont exécutées dans l'ordre descendant. La règle Multi-condition est l'une des conditions de la règle 5_MostCommonZip, le code postal conforme à la règle doit donc être le code postal le plus courant, comprenant cinq chiffres. La colonne zip est la colonne cible de la règle 5_MostCommonZip et les deux règles Multi-target suivantes ajoutent deux colonnes cible, state et country. Les colonnes zip, state et country seront la source des données consolidées. Une fois qu'un code postal est validé, les valeurs correspondantes des champs dans les colonnes zip, state et country seront sélectionnés comme les données de meilleure qualité.Cela est vrai également pour la règle Sequential 6_LatestPhone. Une fois la valeur d'une date validée, les valeurs correspondantes des champs seront sélectionnées depuis les colonnes phone et date.Remarque :Dans le tableau, les champs contenant n/a ne sont pas disponibles pour les types Order ou Function sélectionnés. Dans la table Rule table de la vue Basic settings du composant tRuleSurvivorship, ces champs indisponibles sont grisés. Pour plus d'informations concernant cette table de règles, consultez le tableau des propriétés du composant tRuleSurvivorShip, en haut de la section.
-
A côté de Generate rules and survivorship
flow, cliquez sur l'icône
afin de générer l'ensemble de règles avec son contenu défini.
Cela fait, vous pouvez trouver l'ensemble de règles généré dans le répertoire Metadata > Rules Management > Survivorship Rules dans la vue Repository de votre Studio Talend . Vous pouvez ouvrir le flux de consolidation créé et consulter son diagramme. Pour plus d'informations, consultez le Guide utilisateur du Studio Talend .