Accéder au contenu principal Passer au contenu complémentaire

Récupérer les lignes valides/invalides dans une analyse de colonne(s)

Vous pouvez générer un Job prêt à l'emploi sur les résultats d'une analyse de colonne(s). Ce Job récupère les lignes valides/invalides ou les deux types de lignes, et les écriront dans des fichiers de sortie ou dans des bases de données.

Avant de commencer

La perspective Profiling du Studio doit être ouverte.

Procédure

  1. Suivez les étapes décrites dans Définir les colonnes à analyser (uniquement en anglais) et Ajouter une expression régulière ou un modèle SQL dans une analyse de colonne(s) (uniquement en anglais) pour créer une analyse de colonne(s) utilisant un modèle.
  2. Exécutez l'analyse de colonne(s).
  3. Dans la vue Analysis Results, cliquez sur Pattern Matching sous le nom de la colonne analysée.

    Le graphique généré pour la correspondance de modèles est accompagné d'un tableau détaillant l'affichage des résultats correspondants.

    Menu contextuel d'un libellé dans la section Pattern Matching (Correspondance des modèles).
  4. Cliquez-droit sur la ligne du modèle dans le tableau Pattern Matching et sélectionnez Generate Jobs.

    La boîte de dialogue [Job Selector] s'ouvre.

    Si vous analysez une colonne à l'aide d'un modèle défini pour une base de données spécifique, vous pouvez générer des Jobs ELT.
    Si vous analysez la colonne à l'aide d'un modèle défini pour le langage Java ou Default, vous pouvez générer des Jobs ETL.
  5. Dans la boîte de dialogue, sélectionnez une option :
    Option Résultats
    Generate an ELT Job to get only valid rows Générer un Job qui utilisera le processus Extract Load Transform (Extraire, charger et transformer) pour écrire les lignes valides de la colonne analysée dans un fichier de sortie.

    Cette option n'est pas disponible pour la base de données Amazon Redshift.

    Generate an ELT job to get only invalid rows Générer un Job qui utilisera le processus Extract Load Transform (Extraire, charger et transformer) pour écrire les lignes invalides de la colonne analysée dans un fichier de sortie.

    Cette option n'est pas disponible pour la base de données Amazon Redshift.

    Générer un Job ETL pour gérer les lignes Générer un Job qui utilisera le processus Extract Transform Load (Extraire, transformer et charger) pour écrire les lignes valides/invalides de la colonne analysée dans des fichiers de sortie.
    Dans cet exemple, choisissez l'option generate an ETL job to handle rows afin de générer un Job qui écrira les lignes d'e-mails valides et invalides dans deux fichiers séparés.
  6. Dans la boîte de dialogue, cliquez sur Finish.
    La perspective Integration s'ouvre sur le Job généré.
    Job utilisant un composant tMysqlInput, un tMultiPatternCheck et deux tFileOutputDelimited.
  7. Facultatif : Utilisez différents composants de sortie pour récupérer les lignes valides/invalides dans différents types de fichiers ou dans des bases de données.
  8. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.
    Les lignes d'e-mails valides et invalides de la colonne analysée sont écrites dans les fichiers de sortie définis.
    Les résultats dans les fichiers récupérés dépendent du mode sélectionné, ELT ou ETL. En mode ETL, les données sont récupérées par rapport à des expressions régulières Java, alors qu'en mode ELT, les données sont récupérées par rapport aux expressions régulières de la base de données correspondante. Les moteurs d'expressions régulières fonctionnent différemment en Java et dans un SGBD, les résultats peuvent donc varier, d'autant plus si vous définissez différentes expressions régulières dans l'éditeur de modèles.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !