Analyser des colonnes dans un fichier Excel - 6.1

Talend Data Management Platform Studio Guide utilisateur

EnrichVersion
6.1
EnrichProdName
Talend Data Management Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

La perspective Profiling dans le studio vous permet d'analyser des données dans un fichier Excel et exécuter les analyses créées, à l'aide du moteur Java. Cette analyse se concentre sur une colonne et analyse chaque cellule de celle-ci.

Note

Le profiling des fichiers Excel s'effectue via ODBC pour le moment. Dans des versions ultérieures du Studio, vous pourrez analyser des fichiers Excel comme des fichiers délimités.

Prérequis : Au moins une connexion à un fichier Excel doit avoir été configurée dans la perspective Profiling du studio. Pour plus d'informations, consultez Se connecter à un fichier Excel.

Note

L'exemple ci-dessous utilise ODBC générique pour se connecter à la source de données. Dans le Studio, vous pouvez tujours utiliser ODBC pour vous connecter au fichier Excel. Cependant, ODBC fonctionne uniquement avec Java 7.

Pour configurer une connexion ODBC à une source de données, procédez comme suit :

  1. Dans l'arborescence DQ Repository, développez le nœud Metadata, puis cliquez-droit sur DB connections.

    L'assistant de connexion s'ouvre.

  2. Dans le champ Name, saisissez un nom pour la connexion.

    Note

    Il est recommandé de ne pas utiliser les caractères spéciaux suivants dans le nom de l'élément, notamment :

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">".

    Ces caractères seront remplacés par un "_" dans le système de fichiers. Vous risquez ainsi de créer des éléments en doublon.

  3. Si nécessaire, saisissez l'objectif de la connexion dans le champ Purpose, sa Description puis cliquez sur Next pour passer à l'étape suivante.

  4. Dans la liste DB Type, sélectionnez Generic ODBC.

  5. Dans le champ DataSource, saisissez le nom exact de la source de données créée dans la procédure précédente.

  6. Cliquez sur le bouton Check pour afficher un message de confirmation concernant le statut de la connexion.

  7. Si votre connexion est établie, cliquez sur OK pour fermer le message puis sur Finish pour fermer l'assistant.

  8. La connexion s'affiche sous le nœud DB connections dans la vue DQ Repository et l'éditeur de connexion s'ouvre dans le Studio.

Note

Vous pouvez créer une connexion à un fichier Excel de la perspective Integration ou de la perspective Profiling. Une fois créée, cette connexion s'affiche toujours simultanément dans les deux perspectives.

Avertissement

Si vous avez des difficultés à récupérer les colonnes du fichier Excel, donnez à la feuille du fichier Excel le même nom que la table. Pour ce faire, sélectionnez la table complète dans le fichier Excel puis appuyez sur Ctrl + F3 et modifiez le nom.

Vous pouvez créer une analyse de colonne(s) dans la perspective Profiling du studio afin de profiler les colonnes dans le fichier Excel.

Les procédures pour analyser des colonnes dans un fichier Excel sont exactement les mêmes que pour analyser des colonnes dans un fichier délimité. Pour plus d'informations concernant l'analyse des colonnes dans des fichiers Excel, consultez Analyser des colonnes dans un fichier délimité et Accéder à la vue détaillée des résultats d'une analyse.

Avertissement

Vérifiez que vous avez sélectionné le moteur Java dans la vue Analysis Parameter de l'éditeur d'analyse avant d'exécuter l'analyse des colonnes Excel. Sinon, un message d'erreur s'affiche lors de l'exécution de l'analyse.