Accéder au contenu principal Passer au contenu complémentaire

Filtrer des données relatives aux crimes dans des tables Google BigQuery

Ce scénario a pour objectif de vous aider à configurer et à utiliser des connecteurs dans un pipeline. Ce scénario doit être adapté en fonction de votre environnement et de votre cas d'utilisation.

Avant de commencer

  • Si vous souhaitez reproduire ce scénario, vous pouvez utiliser le jeu de données BigQuery disponible chicago_crime gratuitement.

Procédure

  1. Cliquez sur Connections (Connexions) > Add connection (Ajouter une connexion).
  2. Dans le panneau qui s'ouvre, sélectionnez le type de connexion à créer.

    Exemple

    BigQuery
  3. Sélectionnez votre moteur dans la liste Engine.
    Note InformationsRemarque :
    • Il est recommandé d'utiliser Moteur distant Gen2 plutôt que Moteur Cloud pour le design pour un traitement avancé des données.
    • Si aucun Moteur distant Gen2 n'a été créé depuis Talend Management Console ou s'il existe mais semble indisponible, ce qui signifie qu'il n'est pas en cours de fonctionnement, vous ne pourrez pas sélectionner de type de connexion (Connection type) dans la liste ou sauvegarder la nouvelle connexion.
    • Les types de connexion disponibles dépendent du moteur sélectionné.
  4. Sélectionnez le type de connexion à créer.
    Sélectionnez Google BigQuery.
  5. Renseignez les propriétés de la connexion pour accéder à votre projet BigQuery, comme décrit dans Propriétés Google BigQuery, y compris le nom du projet et les identifiants JSON, vérifiez la connexion puis cliquez sur Add dataset (Ajouter un jeu de données).
  6. Dans le panneau Add a new dataset, nommez votre jeu de données chicago crime.
  7. Renseignez les propriétés requises pour accéder au fichier situé dans votre bucket BigQuery (nom du jeu de données, nom de la table ou requête) et cliquez sur View sample (Voir l'échantillon) pour voir un aperçu de l'échantillon de données.
  8. Cliquez sur Validate (Valider) pour sauvegarder votre jeu de données.
  9. Répétez l'opération pour ajouter le jeu de données de la table à utiliser comme destination dans votre pipeline.
  10. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  11. Cliquez sur ADD SOURCE pour ouvrir le panneau permettant de sélectionner vos données source, ici un jeu de données public concernant les crimes à Chicago, stocké dans une table BigQuery.
  12. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  13. Cliquez sur et ajoutez un processeur Field selector au pipeline. Le panneau de configuration s'ouvre.
  14. Donnez un nom significatif au processeur.

    Exemple

    select crime detail fields
  15. Dans la zone Selectors (Sélecteurs) du mode Advanced (Avancé) :
    1. Saisissez ou sélectionnez .case_number dans la liste Input et case_id dans la liste Output, car vous souhaitez sélectionner et renommer le champ case_number.
    2. Cliquez sur le signe + pour ajouter un élément et saisissez ou sélectionnez .description dans la liste Input et desc dans la liste Output, puisque vous souhaitez sélectionner et renommer le champ description.
    3. Cliquez sur le signe + pour ajouter un élément et saisissez ou sélectionnez .primary_type dans la liste Input et crime_type dans la liste Output, puisque vous souhaitez sélectionner le champ primary_type.
    4. Cliquez sur le signe + pour ajouter un élément et saisissez ou sélectionnez .location_description dans la liste Input et location dans la liste Output, puisque vous souhaitez sélectionner le champ location_description.
  16. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.

    (Facultatif) Examinez la prévisualisation du processeur afin de consulter vos données après l'opération de restructuration.

  17. Cliquez sur et ajoutez un processeur Filter au pipeline. Donnez-lui un nom significatif.

    Exemple

    filter on 1st degree murders
  18. Configurez le processeur :
    1. Ajoutez un élément et sélectionnez .crime_type dans la liste Input, car vous souhaitez scinder les parties locale et du domaine des adresses e-mail des clients.
    2. Sélectionnez NONE dans la liste Optionally select a function to apply.
    3. Sélectionnez == dans la liste Operator.
    4. Saisissez HOMICIDE dans le champ Value, car vous souhaitez filtrer sur les homicides.
    5. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  19. (Facultatif) Consultez l'aperçu du processeur Filter pour voir l'échantillon de données après l'opération de filtre.
  20. Cliquez sur ADD DESTINATION et sélectionnez la table du jeu de données qui contiendra vos données réorganisées.
    Renommez-le si nécessaire.
  21. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  22. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d'exécution. Les données relatives aux crimes ont été traitées, les cas d'homicides ont été isolés et le flux de sortie est envoyé dans la table Google BigQuery indiquée.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !