Travailler sur des jeux de données volumineux

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.3
2.0
EnrichProdName
Talend Data Integration
Talend Data Fabric
Talend Real-Time Big Data Platform
Talend ESB
Talend Data Services Platform
Talend Data Management Platform
Talend MDM Platform
Talend Big Data
Talend Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation
Par défaut, un jeu de données est considéré volumineux lorsqu'il excède 10 000 lignes pour Talend Data Preparation, et 30 000 lignes pour Talend Data Preparation Free Desktop.

Même s'il n'existe aucune limite concernant la taille des jeux de données que vous pouvez importer, les options d'export et l'affichage des jeux de données volumineux seront différents. Par exemple, pour un jeu de données de 50 000 lignes :

  • Dans Talend Data Preparation Free Desktop, l'import sera tronqué à 30 000 lignes. Il vous sera uniquement possible de préparer et exporter les 30 000 premières lignes de votre jeu de données. C'est une valeur par défaut, qui peut être encore réduite en configurant le paramètre dataset.records.limit dans le fichier application.properties situé dans le dossier d'installation.

  • Dans Talend Data Preparation, vous pourrez travailler sur un échantillon affichant les 10 000 premières lignes de votre jeu de données. C'est une valeur par défaut qui peut être augmentée en configurant le paramètre dataset.records.limit dans le fichier application.properties situé dans le dossier d'installation. Une valeur plus importante aura cependant un impact négatif sur les performances de l'application. La valeur maximale que vous pouvez fixée dépend de votre navigateur, la qualité de votre réseau, et la puissance de votre machine. N'excédez pas 100 000 lignes pour la taille maximale de votre échantillon.

Si vous modifiez la valeur par défaut du nombre de lignes à afficher, le changement ne sera effectif que pour les jeux de données nouvellement importés, et pas pour les jeux de données existants.