Importer des jeux de données Hive ou HDFS dans un cluster multi-nœud - 7.2

Guide d'utilisation de Talend Data Preparation

EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Data Preparation
task
Qualité et préparation de données > Nettoyage de données

Pour activer l'import de jeux de données Hive ou HDFS stockés dans un cluster multi-nœud, vous devez modifier les fichiers de configuration Components Catalog.

Important : Assurez-vous que votre fichier Keytab utilisé pour l'authentification à HDFS est accessible à tous les workers du cluster.

Procédure

  1. Créez un fichier <components_catalog>/tcomp_gss.conf et ajoutez les paramètres de configuration suivants :
    com.sun.security.jgss.initiate {
    com.sun.security.auth.module.Krb5LoginModule required
    useTicketCache=false
    doNotPrompt=true
    useKeyTab=true
    keyTab="/path/to/the/keytab/keytab_file.keytab"
    principal="your@principalHere"
    debug=true;
    };
  2. Dans le fichier <components_catalog>/start.sh, configurez ces paramètres avec les valeurs suivantes pour référencer le fichier <components_catalog>/tcomp_gss.conf précédemment créé :
    THE_CMD="$JAVA_BIN $SCRIPT_JAVA_OPTS -Djava.security.auth.login.config=/path/to/gss.conf -Djava.security.krb5.debug=true
    -Djava.security.krb5.conf="/etc/krb5.conf" -Djavax.security.auth.useSubjectCredsOnly=false -cp
    \"$APP_CLASSPATH\" $APP_CLASS $*"
  3. Lorsque vous importez votre jeu de données dans Talend Data Preparation, l'URL JDBC utilisée pour vous connecter à Hive doit suivre ce modèle :
    jdbc:hive2://host:10000/default;principal=<your_principal>

Résultats

Vous pouvez à présent importer des jeux de données Hive ou HDFS stockés dans un cluster multi-nœud.