Scénario : Gestion des données avec Cassandra - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario décrit un Job simple qui lit des données relatives à des employés dans un fichier CSV, écrit les données dans un keyspace Cassandra, extrait les informations personnelles de certains employés, puis affiche les informations dans la console.

Ce scénario nécessite six composants :

  • un tCassandraConnection pour ouvrir une connexion au serveur Cassandra.

  • un tFileInputDelimited pour lire le fichier d'entrée, définir la structure des données et les envoie au composant suivant.

  • un tCassandraOutput pour écrire les données reçues du composant précédent dans un espace de clé (keyspace) Cassandra.

  • un tCassandraInput pour lire les données du keyspace Cassandra.

  • un tLogRow pour afficher dans la console les données reçues du composant précédent.

  • et un tCassandraClose pour fermer la connexion au serveur Cassandra.

Déposer et relier les composants

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tCassandraConnection, un tFileInputDelimited, un tCassandraOutput, un tCassandraInput, un tLogRow et un tCassandraClose.

  2. Connectez le tFileInputDelimited au tCassandraOutput à l'aide d'un lien Row > Main.

  3. Répétez l'opération pour relier le tCassandraInput au tLogRow.

  4. Connectez le tCassandraConnection au tFileInputDelimited à l'aide d'un lien Trigger > OnSubjobOk.

  5. Répétez l'opération pour relier le tFileInputDelimited au tCassandraInput et le tCassandraInput au tCassandraClose.

  6. Renommez les composants afin de mieux identifier leur rôle.

Configurer les composants

Ouvrir une connexion Cassandra

  1. Double-cliquez sur le tCassandraConnection pour ouvrir sa vue Basic settings.

  2. Sélectionnez la version de Cassandra que vous utilisez, dans la liste DB Version. Dans cet exemple, sélectionnez Cassandra 1.1.2.

  3. Dans le champ Server, saisissez le nom de l'hôte ou l'adresse IP du serveur Cassandra. Dans cet exemple, saisissez localhost.

  4. Dans le champ Port, saisissez le numéro du port d'écoute du serveur Cassandra.

  5. Si nécessaire, saisissez vos informations d'authentification à Cassandra : votre identifiant dans le champ Username et votre mot de passe dans le champ Password.

Lire les données d'entrée

  1. Double-cliquez sur le composant tFileInputDelimited pour ouvrir sa vue Component.

  2. Cliquez sur le bouton [...] à côté du champ File Name/Stream afin de parcourir votre système jusqu'au fichier duquel vous souhaitez lire les données. Dans ce scénario, le répertoire est D:/Input/Employees.csv. Le fichier CSV contient quatre colonnes : id, age, name et ManagerID.

    id;age;name;ManagerID
    1;20;Alex;1
    2;40;Peter;1
    3;25;Mark;1
    4;26;Michael;1
    5;30;Christophe;2
    6;26;Stephane;3
    7;37;Cedric;3
    8;52;Bill;4
    9;43;Jack;2
    10;28;Andrews;4
  3. Dans le champ Header, saisissez 1 pour ignorer la première ligne du fichier CSV (car c'est une ligne d'en-tête).

  4. Cliquez sur Edit schema pour définir les données à passer au composant tCassandraOutput.

Écrire des données dans un keyspace Cassandra

  1. Double-cliquez sur le tCassandraOutput pour ouvrir sa vue Basic settings.

  2. Saisissez les informations requises pour la connexion ou cochez la case Use existing connection afin d'utiliser la connexion précédemment configurée. Dans ce scénario, la case Use existing connection est cochée.

  3. Dans la zone Keyspace configuration, saisissez le nom du keyspace : Employee, dans cet exemple et sélectionnez Drop keyspace if exists and create dans la liste Action on keyspace.

  4. Dans la zone Column family configuration, saisissez le nom de la famille de colonnes : Employee_Info, dans cet exemple et sélectionnez Drop column family if exists and create dans la liste Action on column family.

    La case Define column family structure s'affiche. Dans cet exemple, décochez la case.

  5. Dans la liste Action on data, sélectionnez l'action que vous souhaitez effectuer, Upsert dans cet exemple.

  6. Cliquez sur le bouton Sync columns pour récupérer le schéma du composant précédent.

  7. Sélectionnez la colonne de clé dans la liste Key column. Dans cet exemple, sélectionnez id.

    Si nécessaire, cochez la case Include key in columns.

Lire des données d'un keyspace Cassandra

  1. Double-cliquez sur le composant tCassandraInput pour ouvrir sa vue Component.

  2. Saisissez les informations requises pour la connexion ou cochez la case Use existing connection afin d'utiliser la connexion précédemment configurée. Dans ce scénario, la case Use existing connection est cochée.

  3. Dans la zone Keyspace configuration, saisissez le nom de l'espace de clé : Employee, dans cet exemple.

  4. Dans la zone Column family configuration, saisissez le nom de la famille de colonnes : Employee_Info, dans cet exemple.

  5. Sélectionnez Edit schema pour définir la structure des données à lire depuis le keyspace Cassandra. Dans cet exemple, trois colonnes sont définies id, name et age.

  6. Si nécessaire, cochez la case Include key in output columns, puis sélectionnez, dans la liste Key column, la colonne clé de la famille de colonnes que vous souhaitez inclure.

  7. Dans la liste Row key type, sélectionnez Integer car la colonne id est de type Integer dans cet exemple.

    Laissez l'option Row key Cassandra type à Default, car sa valeur devient automatiquement Int32.

  8. Dans la zone Query configuration, cochez la case Specify row keys et spécifiez les clés de lignes. Dans cet exemple, trois lignes doivent être lues. Cochez la case Specify columns et spécifiez le nom des colonnes de la famille de colonnes. Ce scénario permet de lire trois colonnes du : id, name et age.

  9. Si nécessaire, les champs Key start et Key end vous permettent de définir l'écart de lignes. Le champ Key limit vous permet de spécifier le nombre de lignes à l'intérieur de l'écart de lignes à lire. De la même manière, les champs Columns range start et Columns range end vous permettent de définir l'écart de colonnes dans la famille de colonnes. Le champ Columns range limit vous permet de spécifier le nombre de colonnes dans l'écart de colonnes à lire.

Afficher les informations qui vous intéressent

  1. Double-cliquez sur le composant tLogRow pour ouvrir sa vue Component.

  2. Dans la zone Mode, sélectionnez Table (print values in cells of a table) afin de visualiser les données sous forme de tableau.

Fermer la connexion Cassandra

  1. Double-cliquez sur le composant tCassandraClose pour afficher sa vue Component.

  2. Sélectionnez la connexion à fermer, dans la liste Component List.

Sauvegarder et exécuter le Job

  1. Appuyez sur les touches Ctrl+S pour sauvegarder votre Job.

  2. Exécutez le Job en appuyant sur la touche F6 ou en cliquant sur le bouton Run dans la vue Run.

    Les informations personnelles des trois employés s'affichent dans la console.