Créer un Job pour dédoublonner des données - 6.2

Talend Big Data Platform Studio Guide utilisateur

EnrichVersion
6.2
EnrichProdName
Talend Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Vous pouvez générer un Job pour dédoublonner des données dans un fichier spécifique des Métadonnées du Studio. Via les paramètres de ce Job automatiquement généré, vous pouvez choisir d'écrire les doublons et les valeurs uniques dans deux fichiers ou bases de données séparé(e)s.

La séquence de dédoublonnage de données dans un fichier spécifique comprend les étapes suivantes :

  1. Sélection du fichier que vous souhaitez dédoublonner.

  2. Choix des colonnes sur lesquelles exécuter le Job de dédoublonnage.

  3. Si nécessaire, définition d'une clé de bloc pour partitionner les données à traiter.

    Une clé de bloc est généralement nécessaire lorsque le fichier comprend de nombreuses données.

  4. Choix de l'emplacement où écrire les enregistrements uniques et en doublons.

  5. Exécution du Job généré.

Pour générer un Job qui identifie et stocke les valeurs uniques ou en doublon, procédez comme suit :

  1. Dans la barre de menu, sélectionnez Window > Show View .

    La boîte de dialogue [Show View] s'ouvre.

  2. Développez le dossier Help et sélectionnez Cheat Sheets.

  3. Cliquez sur OK pour fermer la boîte de dialogue.

    La vue Cheat Sheets s'ouvre dans le Studio.

  4. Dans la barre d'icônes, cliquez sur la flèche déroulante et dans le menu contextuel, sélectionnez Launch Other.... La boîte de dialogue [Cheat Sheet Selection] s'ouvre.

  5. Développez Talend - Cheat Sheets > Job et sélectionnez Deduplicate Data, puis cliquez sur OK pour fermer la boîte de dialogue. La page correspondante s'ouvre dans le panneau Cheat Sheets. Cette page vous guide à travers les étapes de création d'un Job prêt à l'emploi sur certaines colonnes d'un fichier spécifique.

  6. Lisez l'introduction puis cliquez sur Click to Restart. Cela va développer la première étape de la procédure : Select File.

  7. Lisez les instructions puis cliquez sur Click to perform. Un assistant s'ouvre pour vous guide à travers les étapes de création du Job.

  8. Dans le champ Type list, sélectionnez le type de fichier sur lequel vous souhaitez exécuter le Job. Cliquez sur OK.

    Une boîte de dialogue s'ouvre et affiche les connexions aux bases de données et fichiers définies dans le Studio.

  9. Sélectionnez le fichier à nettoyer dans la section Metadata > connections et cliquez sur OK.

    L'étape suivante de l'aide-mémoire est développée.

  10. Lisez les instructions concernant comment choisir les champs à mettre en correspondance puis cliquez sur Click to perform afin d'ouvrir la vue suivante de l'assistant.

  11. Continuez à suivre les instructions et à passer de l'assistant aux étapes dans la page des aide-mémoire jusqu'à ce que vous arriviez à la dernière étape : Review and Run the Generated Job. L'assistant configure tous les composants et métadonnées du Repository selon les paramètres définis dans les différentes vues de l'assistant puis génère le Job. Le Studio passe à la perspective Integration afin d'afficher le Job généré devant ressembler à celui présenté dans la capture d'écran ci-dessous :

  12. Sauvegardez le Job et appuyez sur F6 pour l'exécuter. Les valeurs uniques et en doublon dans le fichier sont identifiées et stockées dans les sorties définies, fichiers ou bases de données. Le Job généré est stocké sous le nœud Job Designs dans la vue Repository.