Définir le flux de consolidation - Cloud - 8.0

Rapprochement de données à l'aide des outils Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07

Pourquoi et quand exécuter cette tâche

Après avoir configuré et regroupé les données d'entrée, vous devez créer le flux de consolidation à l'aide du composant tRuleSurvivorship. Pour définir un espace de noms :

Procédure

  1. Double-cliquez sur le tRuleSurvivorship pour ouvrir sa vue Component.
  2. Dans la liste Group Identifier, sélectionnez GID, puis, dans la liste Group size, sélectionnez GRP_SIZE.
  3. Dans le champ Rule package name, saisissez le nom de l'ensemble de règles que vous devez créer afin de définir le flux de consolidation. Dans cet exemple, le nom est org.talend.survivorship.sample.
  4. Dans la table Rule table, cliquez sur le bouton [+] pour ajouter autant de lignes que nécessaire et renseignez-les à l'aide des définitions des règles correspondantes. Dans cet exemple, ajoutez dix lignes et renseignes-les à l'aide du tableau suivant :

    Ordre

    Nom de la règle

    Colonne de référence

    Fonction

    Valeur

    Colonne cible

    Sequential

    "1_LengthAcct"

    acctName

    Expression

    ".length >11"

    acctName

    Sequential

    "2_LongestAddr"

    addr

    Longest

    n/a

    addr

    Sequential

    "3_HighCredibility"

    credibility

    Expression

    "> 3"

    credibility

    Sequential

    "4_MostCommonCity"

    city

    La plus commune

    n/a

    city

    Sequential

    "5_MostCommonZip"

    zip

    La plus commune

    n/a

    zip

    Multi-condition

    n/a

    zip

    Match regex

    "\\d{5}"

    n/a

    Multi-target

    n/a

    n/a

    n/a

    n/a

    state

    Multi-target

    n/a

    n/a

    n/a

    n/a

    country

    Sequential

    "6_LatestPhone"

    date

    La plus récente

    n/a

    phone

    Multi-target

    n/a

    n/a

    n/a

    n/a

    date

    N'utilisez pas de caractère spécial dans le nom des règles, sinon le Job risque de ne pas s'exécuter correctement.
    Ces règles sont exécutées dans l'ordre décroissant. La règle Multi-condition est l'une des conditions de la règle 5_MostCommonZip, le code postal conforme à la règle doit donc être le code postal le plus courant, comprenant cinq chiffres. La colonne zip est la colonne cible de la règle 5_MostCommonZip et les deux règles Multi-target suivantes ajoutent deux colonnes cible, state et country. Les colonnes zip, state et country seront la source des données consolidées. Une fois qu'un code postal est validé, les valeurs correspondantes des champs dans les colonnes zip, state et country seront sélectionnés.
    Cela est vrai également pour la règle Sequential 6_LatestPhone. Une fois la valeur d'une date validée, les valeurs correspondantes des champs seront sélectionnées depuis les colonnes phone et date.
    Remarque :

    Dans le tableau, les champs contenant n/a ne sont pas disponibles pour les types Order ou Function sélectionnés. Dans la table Rule table de la vue Basic settings du composant tRuleSurvivorship, ces champs indisponibles sont grisés. Pour plus d'informations concernant cette table de règles, consultez le tableau des propriétés du composant tRuleSurvivorShip, en haut de la section.

  5. À côté du champ Generate rules and survivorship flow, cliquez sur l'icône pour générer l'ensemble de règles selon les conditions définies.
    Cela fait, vous trouverez le package de règles générées dans le répertoire Metadata > Rules Management > Survivorship Rules du Repository du Studio Talend. Vous pouvez ouvrir le flux de consolidation créé et consulter son diagramme. Pour plus d'informations, consultez Gestion d'un ensemble de règles de consolidation.