Hacher des champs pour comparer les données de manière sécurisée - Cloud

Guide des processeurs de Talend Cloud Pipeline Designer

EnrichVersion
Cloud
EnrichProdName
Talend Cloud
EnrichPlatform
Talend Pipeline Designer
task
Création et développement > Création de Pipelines

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source.

    Ici, une connexion Amazon S3.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Ici, un jeu de données contenant des données concernant des cultures récoltées au Mali, avec les types de cultures, la valeur de production, les zones récoltées, etc (téléchargez le fichier string-crops.csv depuis l'onglet Téléchargements du panneau de gauche de cette page).

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

    Ici, un jeu de données stocké dans le même bucket S3.

Procédure

  1. Cliquez sur ADD PIPELINE dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Hash fields to compare data safely
  3. Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici les données relatives aux cultures récoltées au Mali en 2005.

    Exemple

  4. Sélectionnez votre jeu de données et cliquez sur SELECT pour l’ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur et ajoutez un processeur Data hashing au pipeline. Le panneau de configuration s'ouvre.
  6. Donnez un nom significatif au processeur.

    Exemple

    hash fields
  7. Dans la zone Configuration :
    1. Sélectionnez Hash data dans la liste Function name.
    2. Cliquez sur l'icône près de la liste Fields to process afin de sélectionner tous les champs, car vous souhaitez hacher toutes les valeurs en une fois.
  8. Cliquez sur SAVE pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération.

    Tous les champs sont hachés et sécurisés. Vous pouvez voir que les champs crop et id ont la même valeur de sortie, ce qui signifie que la valeur originale est la même dans les deux champs.

  9. Cliquez sur et ajoutez un processeur Field selector au pipeline. Le panneau de configuration s'ouvre.
  10. Donnez un nom significatif au processeur.

    Exemple

    merge identical hashed values
  11. Dans la zone Selectors :
    1. Sélectionnez .crop dans la liste Input et saisissez crop_id dans la liste Output, comme les deux champs .crop et .id sont identiques et que vous souhaitez fusionner les deux champs.
    2. Ajoutez un nouvel élément (NEW ELEMENT) et sélectionnez .crop_parent dans la liste Input, saisissez crop_type dans la liste Output, car vous souhaitez conserver ce champ et le renommer.
    3. Ajoutez un nouvel élément (NEW ELEMENT) et sélectionnez .harvested_area dans la liste Input, saisissez harvested_area dans la liste Output, car vous souhaitez conserver ce champ dans la sortie.
    4. Ajoutez un nouvel élément (NEW ELEMENT) et sélectionnez .value_of_production dans la liste Input, saisissez production_value dans la liste Output, car vous souhaitez conserver ce champ et le renommer.
  12. Cliquez sur SAVE pour sauvegarder votre configuration.

    Examinez la prévisualisation du processeur afin de comparer vos données avant et après l'opération.

  13. Cliquez sur l'élément ADD DESTINATION et sélectionnez le jeu de données qui contiendra les données traitées.
    Renommez-le si nécessaire.
  14. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, sélectionnez votre profil d'exécution dans la liste (pour plus d'informations, consultez Run profiles).
  15. Cliquez sur l'icône d'exécution pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d’exécution, les données sont hachées, les champs identiques ont été fusionnés et réorganisés selon les conditions spécifiées et la sortie est envoyée vers le système cible défini.