Création d'un type sémantique basé sur un dictionnaire à partir d'un fichier volumineux

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.3
2.0
EnrichProdName
Talend Data Fabric
Talend Real-Time Big Data Platform
Talend Big Data Platform
Talend Big Data
Talend MDM Platform
Talend Data Integration
Talend Data Services Platform
Talend Data Management Platform
Talend ESB
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation
Lorsque vous créez un type sémantique basé sur un dictionnaire dans Talend Dictionary Service, à partir d'une liste contenant plus de 1 000 valeurs, vous devez diviser la liste en fichiers moins volumineux.

Procédure

  1. Divisez la liste source en fichiers .txt moins volumineux :
    Par exemple, file1.txt et file2.txt.
  2. Ajoutez ces fichiers au dossier <Dictionary_Service_Path>/command-line/samples/source.

    Ce dossier est utilisé pour l'exemple, mais vous pouvez sauvegarder vos fichiers à l'emplacement de votre choix.

  3. Ouvrez une invite de commande.
  4. À l'aide de la commande cd, allez au dossier <Dictionary_Service_Path>/command-line.
  5. Pour créer le type sémantique, exécutez la commande suivante, selon votre système d'exploitation :
    • category_manager.bat -c -name <SemanticTypeName> -type DICT -cmpl true -desc "<Description>" -src samples/source/file1.txt, sous Windows.

    • ./category_manager.sh -c -name <SemanticTypeName> -type DICT -cmpl true -desc "<Description>" -src samples/source/file1.txt, sous Linux.

    Vos identifiants de connexion à Talend Administration Center vous sont demandés. La commande est exécutée après une connexion réussie.

  6. Pour mettre à jour le type sémantique créé et ajouter la liste de valeurs issue du fichier file2.txt, exécutez la commande suivante, selon votre système d'exploitation :
    • category_manager.bat -a -name <SemanticTypeName> -type DICT -cmpl true -desc "<Description>" -src samples/source/file2.txt, sous Windows.

    • ./category_manager.sh -a -name <SemanticTypeName> -type DICT -cmpl true -desc "<Description>" -src samples/source/file2.txt, sous Linux.

  7. Pour afficher la liste des entrées sous le type sémantique créé, exécutez la commande suivante, selon votre système d'exploitation :
    • category_manager.bat -e -name <SemanticTypeName>, sous Windows.

    • ./category_manager.sh -e -name <SemanticTypeName>, sous Linux.

    Vous pouvez voir que les valeurs issues des fichiers file1.txt et file2.txt ont bien été ajoutées au type sémantique créé.