Centraliser les métadonnées de Neo4j - 6.5

Talend Real-Time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.5
EnrichProdName
Talend Real-Time Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Si vous avez souvent besoin de manipuler des données d'une base de données Neo4j, alors il peut être intéressant pour vous de centraliser la connexion à une base de données Neo4j et les détails de schémas dans le dossier Metadata, dans la vue Repository.

Seul le serveur distant Neo4j est supporté. Pour cette raison, les composants Neo4j Batch ne peuvent réutiliser cette connexion.

Lorsque vous utilisez une version 3.2.X, seuls le tNeo4jInput et le tNeo4jRow peuvent réutiliser la connexion.

N'utilisez pas de version 2.X.X et 3.X.X dans un même Job. Sinon, des conflits de classes peuvent survenir.

La procédure d'installation des métadonnées de Neo4j est constituée de deux tâches majeures différentes mais liées :

  1. Créer une connexion à une base de données Neo4j.

  2. Récupérer les schémas Neo4j qui vous intéressent.

Prérequis :

  • Tous les modules externes requis manquant dans le Studio Talend en raison des restrictions de licence doivent être installés. Pour plus d'informations, consultez le Guide d'installation Talend.

  • Vous devez connaître les requêtes Cypher utilisées pour lire les données dans Neo4j.

  • Le serveur Neo4j doit être fonctionnel.

Créer une connexion à une base de données Neo4j

  1. Dans la vue Repository, développez le nœud Metadata, cliquez-droit sur NoSQL Connection et sélectionnez Create Connection dans le menu contextuel. L'assistant de connexion s'ouvre.

  2. Dans l'assistant de connexion, renseignez les propriétés générales de la connexion que vous avez besoin de créer, telles que le nom (Name), le but (Purpose) et la description (Description).

    Les informations que vous renseignez dans le champ Description apparaissent dans une info-bulle lorsque vous bougez le pointeur de votre souris au-dessus de la connexion.

    Lorsque vous avez terminé, cliquez sur Next pour passer à l'étape suivante.

  3. Sélectionnez Neo4j dans la liste DB Type et spécifiez les détails de connexion :

    • Saisissez les informations d'authentification pour vous connecter au serveur Neo4j distant à utiliser. Depuis la version 2.2 de Neo4j, l'identifiant et le mot de passe sont toujours requis.

    • Spécifiez l'URL racine dans le champ Server URL.

  4. Cliquez sur le bouton Check afin de vous assurer que la connexion fonctionne.

  5. Cliquez sur Finish pour valider les paramètres.

    La connexion à la base de données Neo4j nouvellement créée apparaît alors sous le nœud NoSQL Connection dans la vue Repository. Vous pouvez maintenant la déposer dans votre espace de modélisation graphique en tant que composant Neo4j, mais vous devez tout de même définir les informations de schéma là où cela est nécessaire.

    Vous devez ensuite récupérer un ou plusieurs schéma(s) qui vous intéresse(nt) pour votre connexion.

Récupérer un schéma

Dans cette étape, vous allez récupérer le schéma qui vous intéresse de la base de données connectée Neo4j.

  1. Dans la vue Repository, cliquez-droit sur la connexion nouvellement créée et sélectionnez Retrieve Schema dans le menu contextuel.

    L'assistant ouvre une nouvelle vue pour la génération de schéma effectuée d'après une requête Cypher.

  2. Dans le champ Cypher, saisissez votre requête Cypher de sorte qu'elle corresponde aux nœuds et récupérez les propriétés qui vous intéressent.

    Avertissement

    Si votre requête Cypher comprend des chaînes de caractères, entourez-les par des guillemets simples au lieu de guillemets doubles, sous peine de causer des erreurs dans les composants Neo4j déposés à partir de vos métadonnées centralisées.

    Dans cet exemple, la requête suivante est utilisée de sorte qu'elle corresponde aux nœuds ayant pour nom Employees et récupère leurs propriétés ID, Name, HireDate, Salary et ManagerID comme colonnes de schéma :

    MATCH (n:Employees) RETURN n.ID, n.Name, n.HireDate, n.Salary, n.ManagerID;

    Si vous souhaitez récupérer toutes les propriétés des nœuds s'appelant Employees dans cet exemple, vous pouvez saisir la requête suivante :

    MATCH (n:Employees) RETURN n;

    ou :

    MATCH (n:Employees) RETURN *;
  3. Cliquez sur Next pour passer à l'étape suivante de l'assistant dans laquelle vous pouvez éditer le schéma généré.

    Modifiez le schéma si nécessaire. Vous pouvez renommer le schéma et personnaliser la structure du schéma selon vos besoins dans la zone Schema.

    La barre d'outils vous permet d'ajouter, de supprimer ou de déplacer des colonnes dans votre schéma, ou encore de remplacer le schéma avec le schéma défini dans un fichier XML.

    Pour ajouter un nouveau schéma, cliquez sur le bouton Add Schema dans le panneau Schema pour créer un schéma vide que vous devez définir.

    Pour supprimer un schéma, sélectionnez le nom du schéma dans le panneau Schema et cliquez sur le bouton Remove Schema.

  4. Cliquez sur Finish pour terminer la création du schéma. Le schéma créé apparaît sous votre connexion Neo4j dans la vue Repository. Vous pouvez désormais déposer la connexion ou n'importe quel nœud de schéma sous cette connexion dans votre espace de modélisation graphique en tant que composant Neo4j. Toutes les informations sur les métadonnées seront automatiquement renseignées.

    Si vous avez besoin de continuer à éditer un schéma, cliquez-droit sur ce schéma et sélectionnez Edit Schema dans le menu contextuel pour ouvrir de nouveau cet assistant et effectuer vos modifications.

    Avertissement

    Si vous modifiez les schémas, assurez-vous que le type de données dans la colonne Type est correctement défini.