Configurer le Job - 7.3

Rapprochement de données à l'aide des outils Talend

Version
7.3
Language
Français
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement continu
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement de données
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement flou
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Last publication date
2024-02-07

Avant de commencer

  • Vous devez avoir généré les paires de données suspectes en utilisant le composant tMatchPairing.

  • Vous devez avoir ajouté un libellé à côté du second enregistrement dans chaque paire suspecte pour indiquer s'il est un enregistrement en doublon ou non ou s'il est un possible doublon :

    480060609;DFSS_AgencySiteLies_2012.csv;Catholic Charities of the Archdiocese of Chicago St. Joseph;4800 S. Paulina; st. joseph_1;;
    480060609;purple_binder_early_childhood.csv;Catholic Charities Chicago - St. Joseph;4800 S Paulina Street; st. joseph_1;0.8058642705131237;YES
    425760624;chapin_dfss_providers_2011_070212.csv;CHICAGO PUBLIC SCHOOLS GOLDBLATT, NATHAN R.;4257 W ADAMS; r._20;;
    422560653;chapin_dfss_providers_2011_070212.csv;CHICAGO PUBLIC SCHOOLS ROBINSON, JACKIE R.;4225 S LAKE PARK AVE; r._20;0.8219437219200757;NO

    Les libellés utilisés dans cet exemple sont YES et NO, mais vous pouvez utiliser les libellés de votre choix, autant que vous souhaitez.

Vous pouvez consulter un exemple de calcul de paires suspectes et d'échantillon suspect à partir d'une source de données dans Talend Help Center (https://help.talend.com).

Procédure

  1. Déposez les composants suivants situés dans la Palette dans l'espace de modélisation graphique : un tFileInputDelimited et un tMatchModel.
  2. Reliez les composants à l'aide d'un lien Row > Main.
  3. Assurez-vous d'avoir défini la connexion au cluster Spark dans la vue Run > Spark Configuration comme décrit dans Calculer des paires suspectes et un échantillon suspect à partir des données source.
  4. Vérifiez que vous avez défini la connexion au cluster Spark dans la vue Run > Spark Configuration. Pour plus d'informations concernant la sélection du mode Spark, consultez la documentation sur Talend Help Center (https://help.talend.com).

Résultats