Centraliser les métadonnées de Cassandra - 6.5

Talend Real-Time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.5
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Si vous avez souvent besoin de manipuler des données d'une base de données Cassandra, alors il peut être intéressant pour vous de centraliser la connexion à une base de données Cassandra et les détails de schémas dans un dossier Metadata, dans la vue Repository.

La procédure d'installation des métadonnées de Cassandra est constituées de deux tâches majeures différentes mais liées :

  1. Créer une connexion à une base de données Cassandra.

  2. Récupérer les schémas Cassandra qui vous intéressent.

Prérequis :

  • Tous les modules externes requis manquant dans le Studio Talend en raison des restrictions de licence doivent être installés. Pour plus d'informations, consultez le Guide d'installation Talend.

Créer une connexion à une base de données Cassandra

  1. Dans la vue Repository, développez le nœud Metadata, cliquez-droit sur NoSQL Connection et sélectionnez Create Connection dans le menu contextuel. L'assistant de connexion s'ouvre.

  2. Dans l'assistant de connexion, renseignez les propriétés générales de la connexion que vous avez besoin de créer, telles que le nom (Name), le but (Purpose) et la description (Description).

    Les informations que vous renseignez dans le champ Description apparaissent dans une info-bulle lorsque vous bougez le pointeur de votre souris au-dessus de la connexion.

    Lorsque vous avez terminé, cliquez sur Next pour passer à l'étape suivante.

  3. Sélectionnez Cassandra dans la liste DB Type ainsi que la version de la base de données Cassandra à laquelle vous vous connectez dans la liste DB Version, puis spécifiez les détails suivants :

    • Dans la liste API type, sélectionnez Datastax pour utiliser CQL 3 (Cassandra Query Language) avec Cassandra ou sélectionnez Hector pour utiliser CQL 2.

      Notez que l'API Hector est dépréciée depuis la version 2.0 de Cassandra, mais est toujours disponible pour une utilisation dans le Studio, à des fins de flexibilité de version du langage de requête à utiliser avec Cassandra 2.0.0.

    • Saisissez le nom d'hôte ou l'adresse IP du serveur Cassandra dans le champ Server.

    • Saisissez le numéro de port du serveur Cassandra dans le champ Port.

      Note

      L'assistant peut se connecter à votre base de données Cassandra sans que vous ayez à spécifier un port. Le port que vous fournissez ici est uniquement utilisé dans le composant Cassandra que vous déposez dans l'espace de modélisation graphique à partir de cette connexion centralisée.

    • Si vous souhaitez restreindre votre connexion Cassandra à un seul keyspace en particulier, saisissez le keyspace dans le champ Keyspace.

      Si vous laissez ce champ vide, l'assistant listera les familles de colonnes de tous les keyspaces existants de la base de données connectée lors de la récupération des schémas.

    • Si votre serveur Cassandra requiert des informations d'authentification pour accéder à la base de données, cochez la case Require authentication et renseignez vos nom d'utilisateur et mot de passe dans les champs correspondants.

  4. Cliquez sur le bouton Check afin de vous assurer que la connexion fonctionne.

  5. Cliquez sur Finish pour valider les paramètres.

    La connexion à la base de données Cassandra nouvellement créée apparaît sous le nœud NoSQL Connection dans la vue Repository. Vous pouvez maintenant la déposer dans votre espace de modélisation graphique en tant que composant Cassandra, mais vous devez tout de même définir les informations de schéma là où cela est nécessaire.

    Vous devez ensuite récupérer un ou plusieurs schéma(s) qui vous intéresse(nt) pour votre connexion.

Récupérer les schémas

Dans cette étape, vous allez récupérer les schémas qui vous intéressent de la base de données connectée Cassandra.

  1. Dans la vue Repository, cliquez-droit sur la connexion nouvellement créée et sélectionnez Retrieve Schema dans le menu contextuel.

    L'assistant ouvre une nouvelle vue qui liste toutes les familles de colonnes disponibles du keyspace spécifié, ou alors tous les keyspaces disponibles si vous n'en avez spécifié aucun lors de l'étape précédente.

  2. Développez le keyspace, ou alors les keyspace(s) qui vous intéresse(nt) si vous n'avez pas spécifié de keyspace lors de l'étape précédente, comme c'est le cas dans cet exemple, puis sélectionnez la ou les famille(s) de colonnes qui vous intéresse(nt).

  3. Cliquez sur Next pour passer à l'étape suivante de l'assistant dans laquelle vous pouvez éditer le ou les schéma(s) généré(s).

    Par défaut, un schéma généré prend le nom de la famille de colonnes sur laquelle il est basé.

    Sélectionnez un schéma dans le panneau Schema pour afficher ses détails sur le côté droit et modifiez le schéma si nécessaire. Vous pouvez renommer n'importe quel schéma et personnaliser la structure d'un schéma selon vos besoins dans la zone Schema.

    La barre d'outils vous permet d'ajouter, de supprimer ou de remplacer des colonnes dans votre schéma, ou encore de remplacer le schéma avec le schéma défini dans un fichier XML.

    Pour baser un schéma sur une autre famille de colonnes, sélectionnez le nom du schéma dans le panneau Schema et sélectionnez une nouvelle famille de colonnes dans la liste Based on Column Family. Cliquez ensuite le bouton Guess schema pour écraser le schéma avec celui de la famille de colonnes sélectionnée. Vous pouvez cliquer sur le bouton de rafraîchissement pour rafraîchir la liste des familles de colonnes.

    Pour ajouter un nouveau schéma, cliquez sur le bouton Add Schema dans le panneau Schema pour créer un schéma vide que vous devez définir.

    Pour supprimer un schéma, sélectionnez le nom du schéma dans le panneau Schema et cliquez sur le bouton Remove Schema.

    Pour écraser les modifications que vous avez effectuées sur le schéma sélectionné par son schéma par défaut, cliquez sur Guess schema. Notez que toutes modifications que vous avez apportées au schéma seront perdues si vous cliquez sur ce bouton.

  4. Cliquez sur Finish pour terminer la création du schéma. Les schéma créés apparaissent sous votre connexion Cassandra dans la vue Repository. Vous pouvez désormais déposer la connexion ou n'importe quel nœud de schéma sous cette connexion dans votre espace de modélisation graphique en tant que composant Cassandra. Toutes les informations sur les métadonnées seront automatiquement renseignées.

    Si vous avez besoin de continuer à éditer un schéma, cliquez-droit sur ce schéma et sélectionnez Edit Schema dans le menu contextuel pour ouvrir de nouveau cet assistant et effectuer vos modifications.

    Avertissement

    Si vous modifiez les schémas, assurez-vous que le type de données dans la colonne Type est correctement défini.