Créer un Job pour mettre des données en correspondance - 6.3

Talend Data Fabric Studio Guide utilisateur

EnrichVersion
6.3
EnrichProdName
Talend Data Fabric
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Vous pouvez générer un Job afin de mettre en correspondance des données dans un fichier spécifique des métadonnées du Studio avec une autre source de données. Via les paramètres de ce Job automatiquement généré, vous pouvez choisir d'écrire en sortie la correspondance exacte et les valeurs ne correspondant pas, dans des fichiers séparés ou dans une base de données. Cependant, vous pouvez choisir d'écrire en sortie des correspondances possibles dans un fichier, une base de données ou dans la console d'arbitrage. Pour ce faire, vous devez configurer l'application Talend Data Stewardship Console.

Pour plus d'informations concernant la résolution des données, consultez le Guide utilisateur de Talend Data Stewardship Console.

La séquence de mise en correspondance des données par rapport à un fichier de référence comprend les étapes suivantes :

  1. Sélection du fichier contenant les données que vous souhaitez mettre en correspondance.

  2. Choix des colonnes sur lesquelles exécuter le Job de mise en correspondance.

  3. Si nécessaire, définition d'une clé de bloc afin de partitionner les données à traiter. Une clé de bloc est généralement nécessaire lorsqu'un fichier contient de nombreuses données.

  4. Choix de l'emplacement où écrire les correspondances exactes, possibles et les enregistrements ne correspondant pas.

  5. Exécution du Job généré.

Pour générer un Job identifiant et stockant les valeurs des correspondances exactes, possibles et qui ne correspondent pas, procédez comme suit :

  1. Dans la barre de menu, sélectionnez Window > Show View .

  2. La boîte de dialogue [Show View] s'ouvre.

  3. Développez le dossier Help et sélectionnez Cheat Sheets.

  4. Cliquez sur OK afin de fermer la boîte de dialogue. Le panneau Cheat Sheets s'ouvre dans le Studio.

  5. Dans la barre d'icônes, cliquez sur la flèche déroulante et dans le menu contextuel, sélectionnez Launch Other.... La boîte de dialogue [Cheat Sheet Selection] s'ouvre.

  6. Développez les dossiers Talend - Cheat Sheets > Job et sélectionnez Match Data puis cliquez sur OK pour fermer la boîte de dialogue. La page correspondante s'ouvre dans le panneau Cheat Sheets. Cette page vous guide à travers les étapes de la création d'un Job prêt à l'emploi sur certaines colonnes d'un fichier spécifique.

  7. Lisez l'introduction puis cliquez sur Click to Begin. Cela va développer la première étape de la procédure : Select Input File.

  8. Lisez les instructions puis cliquez sur Click to perform. Un assistant s'ouvre pour vous guider à travers les étapes de création du Job.

  9. Dans le champ Type list, sélectionnez le type de fichier sur lequel vous souhaitez exécuter le Job. Cliquez sur OK afin de fermer la première étape de l'assistant. L'étape suivante dans l'aide-mémoire est alors développée.

    Une boîte de dialogue s'ouvre, affichant les connexions aux fichiers et bases de données définies dans le Studio.

  10. Sélectionnez le fichier à nettoyer dans la section Metadata > Connections puis cliquez sur OK.

    L'étape suivante de l'aide-mémoire est développée.

  11. Lisez les instructions concernant comment choisir la source de données de référence par rapport à laquelle vous souhaitez mettre en correspondance les données puis cliquez sur Click to perform pour ouvrir la vue suivante de l'assistant.

  12. Continuez à suivre les instructions et à passer de l'assistant aux étapes de la page des aide-mémoire jusqu'à la dernière étape : Review and Run the Generated Job. L'assistant configure tous les composants et les métadonnées du Repository selon les paramètres définis dans les différentes vues de l'assistant puis génère le Job. Le Studio passe à la perspective Integration. Le Job doit ressembler à celui présenté dans la capture d'écran ci-dessous :

  13. Sauvegardez le Job et appuyez sur F6 pour l'exécuter. Les correspondances exactes, possibles et les valeurs ne correspondant pas dans le fichier sont identifiées et stockées dans les sorties définies, fichiers ou base de données. Le Job généré est stocké sous le nœud Job Designs dans la vue Repository.