Configurer une analyse de rapprochement - Cloud

Configurer une analyse de rapprochement - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version

Cloud

8.0

Language

Français

Product

Talend Big Data

Talend Big Data Platform

Talend Cloud

Talend Data Fabric

Talend Data Integration

Talend Data Management Platform

Talend Data Services Platform

Talend ESB

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Studio Talend

Content

Création et développement

Last publication date

2024-04-16

Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Procédure

Dans le champ Limit, définissez le nombre d'enregistrements de données à utiliser comme échantillon de données.
Facultatif : Cliquez sur le nom de colonne de votre choix dans cette table pour trier l'échantillon de données par ordre croissant ou décroissant.

Dans l'éditeur d'analyse de rapprochement, configurez les options.

Option	Purpose (Objectif)
	Sélectionner la table sous le nœud Metadata de l'arborescence.
New Connection (Nouvelle connexion)	Créer une connexion à une base de données ou à un fichier depuis l'éditeur d'analyse de rapprochement dans lequel vous pouvez développer cette nouvelle connexion et sélectionnez les colonnes sur lesquelles effectuer le rapprochement. Pour plus d'informations concernant la création d'une connexion à des sources de données, consultez Créer des connexions aux différentes sources de données.
Select Data (Sélectionner les données)	Mettre à jour la sélection des colonnes listées dans la table. Si vous modifiez le jeu de données pour une analyse, les diagrammes affichant les résultats de rapprochement des données d'exemple sont automatiquement effacés. Vous devez cliquer sur Chart afin de calculer les résultats de rapprochement pour le nouveau jeu de données défini.
Refresh Data (Actualiser les données)	Actualiser la vue des colonnes listées dans la table.
n first rows (n premières lignes) ou n random rows (n lignes aléatoires)	Lister dans la table les N premiers enregistrements de données des colonnes sélectionnées ou lister N enregistrements aléatoires des colonnes sélectionnées.
Select Blocking Key (Sélectionner la clé de bloc)	Définir les colonnes du flux d'entrée selon lesquelles vous souhaitez partitionner les données traitées en blocs. Pour plus d'informations, consultez Définir une règle de rapprochement.
Select Matching Key	Définir les règles de rapprochement et les colonnes du flux d'entrée sur lesquelles vous souhaitez appliquer l'algorithme de rapprochement. Pour plus d'informations, consultez Définir une règle de rapprochement.
Store on disk (Stocker sur le disque)	Stocker les blocs de données traités sur le disque afin d'optimiser les performances système. Max buffer size : Saisissez la taille de la mémoire physique que vous souhaitez allouer aux données traitées. Temporary data directory path : Configurez le chemin d'accès au répertoire où stocker le fichier temporaire. Allow drill down : choisissez d'activer la fonctionnalité View rows dans l'onglet Analysis Results. Elle affiche la liste des lignes ou groupes en doublon faisant la même taille. Pour plus d'informations, consultez Voir et exporter les données analysées.

Résultats

La table Data Preview (Aperçu des données) contient des colonnes supplémentaires affichant les résultats des données en correspondance :

GID : représente l'identifiant du groupe.
GRP_SIZE : compte le nombre d'enregistrements dans le groupe. Le calcul se fait uniquement sur l'enregistrement maître.
MASTER : indique, par true ou false, si l'enregistrement utilisé dans la comparaison est un enregistrement maître. Il y a au moins un enregistrement maître par groupe.
Chaque enregistrement d'entrée est comparé à l'enregistrement maître. S'ils correspondent, l'enregistrement d'entrée sera inclus dans le groupe.
SCORE : mesure la distance entre l'enregistrement d'entrée et l'enregistrement maître selon l'algorithme de rapprochement utilisé.
GRP_QUALITY : seul l'enregistrement maître possède un score de qualité représentant la valeur minimale du groupe.
ATTRIBUTE_SCORE : liste le score de rapprochement et le nom des colonnes utilisées comme attributs de clés dans les règles appliquées.