Configurer le tSqoopMerge - 7.3

Sqoop

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Data management components > Data movement > Composants Sqoop
Création et développement > Systèmes tiers > Outils de bases de données > Composants Sqoop
Gouvernance de données > Systèmes tiers > Data management components > Data movement > Composants Sqoop
Gouvernance de données > Systèmes tiers > Outils de bases de données > Composants Sqoop
Qualité et préparation de données > Systèmes tiers > Data management components > Data movement > Composants Sqoop
Qualité et préparation de données > Systèmes tiers > Outils de bases de données > Composants Sqoop
Last publication date
2024-02-22

Procédure

  1. Double-cliquez sur le tSqoopMerge afin d'ouvrir sa vue Component.
  2. Dans la zone Mode, sélectionnez Use Java API.
  3. Dans la zone Version, sélectionnez la distribution Hadoop à utiliser et sa version. Si vous ne trouvez pas la distribution correspondant à la vôtre dans la liste, sélectionnez Custom afin de vous connecter à une distribution Hadoop non officiellement supportée par le Studio.
    Pour un exemple d'utilisation étape par étape de cette option Custom, consultez Connexion à une distribution Hadoop personnalisée.
  4. Dans le champ NameNode URI, saisissez l'emplacement du nœud maître, le NameNode, de la distribution utilisée. Par exemple, hdfs://talend-cdh4-namenode:8020. Si vous utilisez WebHDFS, l'emplacement doit être webhdfs://masternode:portnumber ; WebHDFS avec SSL n'est pas supporté.
  5. Dans le champ Resource Manager, saisissez l'emplacement du ResourceManager de votre distribution.
  6. Si la distribution utilisée nécessite une authentification Kerberos, cochez la case Use Kerberos authentication et saisissez les informations de connexion. Sinon, laissez cette case décochée.

    Si vous souhaitez utiliser un fichier Kerberos keytab pour vous identifier, cochez la case Use a keytab to authenticate. Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab. Ce fichier keytab doit être stocké sur la machine où s'exécute votre Job, par exemple, sur un serveur de Jobs Talend.

    l'utilisateur ou l'utilisatrice exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur ou d'utilisatrice que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier Keytab à utiliser.

  7. Dans les champs Old data directory et New data directory, saisissez le chemin ou parcourez votre système de fichiers vers le dossier contenant respectivement l'ancien et le nouveau jeu de données dans HDFS.
  8. Dans le champ Target directory, saisissez le chemin ou parcourez votre système de fichiers vers le dossier contenant les données fusionnées.
  9. Dans le champ Merge key, saisissez le nom de la colonne utilisée en tant que clé pour la fusion. Dans ce scénario, cette colonne est id.
  10. Cochez la case Need to generate the JAR file afin d'afficher les paramètres de connexion de la table de base de données source.
  11. Dans le champ Connection, saisissez l'URI de la base de données MySQL dans laquelle la table source est stockée. Par exemple, jdbc:mysql://10.42.10.13/mysql.
  12. Dans le champ Table Name, saisissez le nom de la table source. Dans ce scénario, il s'agit de sqoopmerge.
  13. Dans les champs Username et Password, saisissez les informations d'authentification.
  14. Sous la table Driver JAR, cliquez sur le bouton [+] pour ajouter une ligne. Dans cette ligne, cliquez sur le bouton [...] pour afficher la liste déroulante et sélectionnez le fichier Jar à utiliser. Dans ce scénario, sélectionnez mysql-connector-java-5.1.30-bin.jar.
    Si le bouton [...] n'est pas disponible, cliquez dans la ligne pour le faire apparaître.
  15. Si le séparateur de champs de la table source n'est pas la virgule (,), vous devez le définir dans la table Additional Arguments de la vue Advanced settings. L'argument utilisé est codegen.output.delimiters.field pour le mode Use Java API ou --fields-terminated-by pour le mode Use Commandline.