Travailler sur des jeux de données volumineux - Cloud

Guide utilisateur de Talend Cloud Data Preparation

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation
Par défaut, un jeu de données est considéré volumineux lorsqu'il excède 10 000 lignes pour Talend Data Preparation et 30 000 lignes pour Talend Data Preparation Free Desktop.

Même s'il n'existe aucune limite concernant la taille des jeux de données que vous pouvez importer, les options d'export et l'affichage des jeux de données volumineux seront différents. Par exemple, pour un jeu de données de 50 000 lignes :

  • Dans Talend Data Preparation Free Desktop, l'import sera tronqué à 30 000 lignes. Il vous sera uniquement possible de préparer et exporter les 30 000 premières lignes de votre jeu de données. C'est une valeur par défaut, qui peut être encore réduite en configurant le paramètre dataset.records.limit dans le fichier application.properties situé dans le dossier d'installation.
  • Dans Talend Data Preparation, vous pourrez travailler sur un échantillon affichant les 10 000 premières lignes de votre jeu de données. C'est une valeur par défaut qui peut être augmentée en configurant le paramètre dataset.records.limit dans le fichier application.properties situé dans le dossier d'installation. Une valeur plus importante aura cependant un impact négatif sur les performances de l'application. La valeur maximale que vous pouvez fixée dépend de votre navigateur, la qualité de votre réseau, et la puissance de votre machine. N'excédez pas 100 000 lignes pour la taille maximale de votre échantillon.

Si vous modifiez la valeur par défaut du nombre de lignes à afficher, le changement ne sera effectif que pour les jeux de données nouvellement importés, et pas pour les jeux de données existants.