Member-only story

Comment j’ai réduit de 93% le temps de génération de mon dataset d’images

4 min readMar 8, 2023

En tant que data scientist, la préparation des données est très chronophage. Je dois régulièrement prétraiter de grosses quantités de données et je ne peux pas toujours prédire les erreurs que je vais rencontrer sur l’ensemble du dataset, il faut donc être méthodique.

Commencer petit

Il peut y avoir des imprévus tout au long du process de préparation. C’est pourquoi il est préférable de commencer par un petit échantillon du vrai dataset à traiter (ici, comquelques images). Une fois que le processus est rodé, il faut effectuer une dernière exécution avec toutes les données et, en fonction de votre machine, cela peut prendre plusieurs heures, voire plusieurs jours (dans mon cas 8h qui sont devenues 30 minutes après application).

2. Faire chauffer le CPU

En général, lorsque vous avez beaucoup de données à traiter avec Python, vous devez rapidement recourir à la librairie de multiprocessing pour paralléliser les tâches, comme dans le graphique suivant.

Chaque traitement complet est répliqué X fois. Ceci impacte maheureusement la mémoire d’autant de fois pour un temps total divisé par X

C’est généralement le moyen le plus intensif en termes de CPU que vous puissiez utiliser avec Python, mais cela pose certains problèmes :

Il n’est pas adapté lorsqu’il faut conserver l’ordre (pour traiter de la video ou du son par exemple)

Comment j’ai réduit de 93% le temps de génération de mon dataset d’images

Written by Gabriel Kasser

No responses yet