SUR CETTE PAGE

Accéder au contenu principal

CETTE PAGE VOUS A-T-ELLE AIDÉ ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Configurer le groupement des données de sortie

Procédure

Cliquez sur le composant tMatchGroup pour afficher sa vue Basic settings. Cliquez sur le bouton Edit schema afin de voir les colonnes d'entrée et de sortie, et d'effectuer des modifications dans le schéma de sortie, si nécessaire.

Dans le schéma de sortie de ce composant, des colonnes standards de sortie sont en lecture seule. Pour plus d'informations, consultez Propriétés du tMatchGroup Standard.
Cliquez sur OK pour fermer la boîte de dialogue.
Double-cliquez sur le composant tMatchGroup pour afficher l'assistant Configuration Wizard et configurer les propriétés du composant.

Si vous souhaitez ajouter une colonne de sortie fixe, MATCHING_DISTANCES, donnant les détails de la distance entre chaque colonne, cliquez sur l'onglet Advanced settings et cochez la case Output distance details. Pour plus d'informations, consultez Propriétés du tMatchGroup Standard.
Dans la table Key definition, cliquez sur le bouton [+] pour ajouter à la liste les colonnes sur lesquelles effectuer l'opération de mise en correspondance, FirstName et LastName, dans ce scénario.
Cliquez sur la première et la deuxième cellules de la colonne Matching Function et sélectionnez dans la liste l'algorithme (les algorithmes) à utiliser pour effectuer la mise en correspondance, Jaro-Winkler dans cet exemple.
Cliquez sur la première et la deuxième cellules de la colonne Weight et définissez les poids numériques pour chacune des colonnes utilisées comme attributs de clés.
Dans le champ Match threshold, saisissez le seuil de probabilité. Deux enregistrements de données correspondent lorsque le seuil de probabilité est supérieur à cette valeur.
Cliquez sur le bouton [+] sous le tableau Blocking Selection afin d'ajouter une ligne, puis cliquez sur cette ligne et sélectionnez dans la liste la colonne que vous souhaitez utiliser comme une valeur de bloc, T_GEN_KEY dans cet exemple.
Utiliser une valeur de bloc réduit le nombre de paires d'enregistrements à examiner. Les données d'entrée sont partitionnées en blocs exhaustifs basés sur la clé fonctionnelle. Cela permet de diminuer le nombre de paires à comparer, puisque la comparaison est limitée aux paires d'enregistrements dans chaque bloc.
Cliquez sur le bouton Chart dans le coin supérieur droit de l'assistant afin d'exécuter le Job avec la configuration définie et voir directement les résultats de correspondance dans l'assistant.
Le diagramme de rapprochement donne une vue globale des doublons dans les données analysées. La table des correspondances donne les détails des éléments de chaque groupe et les colore selon leur couleur dans le graphique des correspondances.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici