Configurer le Job - 7.0

Matching with machine learning

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de rapprochement > Composants de rapprochement utilisant l'apprentissage automatique
EnrichPlatform
Studio Talend
Talend Data Stewardship

Avant de commencer

  • Vous devez avoir généré les paires de données suspectes en utilisant le composant tMatchPairing.

  • Vous devez avoir ajouté un libellé à côté du second enregistrement dans chaque paire suspecte pour indiquer s'il est un enregistrement en doublon ou non ou s'il est un possible doublon :

    480060609;DFSS_AgencySiteLies_2012.csv;Catholic Charities of the Archdiocese of Chicago St. Joseph;4800 S. Paulina; st. joseph_1;;
    480060609;purple_binder_early_childhood.csv;Catholic Charities Chicago - St. Joseph;4800 S Paulina Street; st. joseph_1;0.8058642705131237;YES
    425760624;chapin_dfss_providers_2011_070212.csv;CHICAGO PUBLIC SCHOOLS GOLDBLATT, NATHAN R.;4257 W ADAMS; r._20;;
    422560653;chapin_dfss_providers_2011_070212.csv;CHICAGO PUBLIC SCHOOLS ROBINSON, JACKIE R.;4225 S LAKE PARK AVE; r._20;0.8219437219200757;NO

    Les libellés utilisés dans cet exemple sont YES et NO, mais vous pouvez utiliser les libellés de votre choix, autant que vous souhaitez.

Procédure

  1. Déposez les composants suivants situés dans la Palette dans l'espace de modélisation graphique : un tFileInputDelimited et un tMatchModel.
  2. Reliez les composants à l'aide d'un lien Row > Main.
  3. Assurez-vous d'avoir défini la connexion au cluster Spark dans la vue Run > Spark Configuration comme décrit dans Calcul de paires suspectes et d'un échantillon de paires suspectes à partir d'un jeu de données.

Résultats