Travailler sur des jeux de données volumineux - 7.2

Guide d'utilisation de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation
Par défaut, un jeu de données est considéré volumineux lorsqu'il excède 10 000 lignes dans Talend Data Preparation.

Même s'il n'existe aucune limite concernant la taille des jeux de données que vous pouvez importer, les options d'export et l'affichage des jeux de données volumineux seront différents. Vous pouvez utiliser un échantillon affichant les 10 000 premières lignes, mais votre préparation peut également s'appliquer au reste de votre jeu de données. Le scénario suivant illustre l'exemple d'un jeu de données contenant 50 000 lignes.

La limite de 10 000 lignes est la valeur par défaut. qui peut être augmentée en configurant le paramètre dataset.records.limit dans le fichier application.properties situé dans le dossier d'installation. Une valeur plus importante aura cependant un impact négatif sur les performances de l'application. La valeur maximale que vous pouvez fixer dépend de votre navigateur, de la qualité de votre réseau, et de la puissance de votre machine. N'excédez pas 100 000 lignes pour la taille maximale de votre échantillon.

Si vous modifiez la valeur par défaut du nombre de lignes à afficher, le changement ne sera effectif que pour les jeux de données nouvellement importés, et pas pour les jeux de données existants.