Exporter un jeu de données sécurisé par Kerberos vers HDFS - 7.2

Guide d'utilisation de Talend Data Preparation

Version
7.2
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
Qualité et préparation de données > Nettoyage de données

Pour activer les exports vers un environnement Cloudera avec Kerberos pour les jeux de données Hive, vous devez modifier les fichiers de configuration du serveur de Jobs Spark.

Important : Assurez-vous que le fichier Keytab utilisé pour vous authentifier à HDFS est accessible à tous les workers du cluster.

Procédure

  1. Créez un fichier <sjs_path>/jobserver_gss.conf et ajoutez les paramètres de configuration suivants :
    com.sun.security.jgss.initiate {
    com.sun.security.auth.module.Krb5LoginModule required
    useTicketCache=false
    doNotPrompt=true
    useKeyTab=true
    keyTab="/path/to/the/keytab/keytab_file.keytab"
    principal="your@principalHere"
    debug=true;
    };
  2. Dans le fichier <sjs_path>/manager_start.sh, configurez ces paramètres avec les valeurs suivantes afin de référencer le fichier <sjs_path>/jobserver_gss.conf précédemment créé :
    KRB5_OPTS="-Djava.security.auth.login.config=jobserver_gss.conf
     -Djava.security.krb5.debug=true
     -Djava.security.krb5.conf=/path/to/krb5.conf
     -Djavax.security.auth.useSubjectCredsOnly=false"
     --conf "spark.executor.extraJavaOptions=$LOGGING_OPTS $KRB5_OPTS"
     --conf "spark.yarn.dist.files=/path/to/jobserver_gss.conf"
     --proxy-user $4
     --driver-java-options "$GC_OPTS $JAVA_OPTS $LOGGING_OPTS $CONFIG_OVERRIDES $JDBC_PROPERTIES $KRB5_OPTS"
  3. Lorsque vous importez votre jeu de données dans Talend Data Preparation, l'URL JDBC utilisée pour vous connecter à Hive doit suivre ce modèle :
    jdbc:hive2://host:10000/default;principal=<your_principal>
  4. Copiez le fichier <components_catalog_path>/config/jdbc_config.json contenant le pilote Hive dans le dossier d'installation du serveur de Jobs Spark.
  5. Copiez les fichiers .jar depuis le dossier <components_catalog_path>/.m2 dans le dossier <sjs_path>/datastreams-deps.

Résultats

Vous pouvez à présent exporter vos jeux de données Hive vers HDFS.