Add stream parsing in Schema class #25

antoine-b-smartway · 2024-04-17T08:47:44Z

Le but de cette PR est d'ajouter un moyen de lire séquentiellement les lignes parsées d'un fichier au lieu de tout lire d'un coup pour réduire l'empreinte mémoire d'un import de fichier.

Des tests temporaires ont été mis pour vérifier:

que c'est bien séquentiel
que la consommation de mémoire reste stable avec cette nouvelle méthode

J'ai laissé ces tests pour la PR mais je vais les enlever avant le merge:

le test de mémoire est long et compliqué de mettre des assertions fiables dessus
le test d'ordre n'apporte pas grand chose, ça revient à tester Iterable en python (et en plus je ne vois pas comment l'écrire sans variable statique)

antoine-b-smartway · 2024-04-17T08:48:46Z

pyproject.toml

@@ -33,3 +33,4 @@ exclude = [".git/", ".pytest_cache/", ".venv"]

 [tool.pytest.ini_options]
 python_files = ["tests/*"]
+log_cli = true


Nécessaire pour les tests temporaires pour afficher des logs dans le résultat des tests exécutés avec pytest. Sera enlevé en même temps que les tests.

README.md

magicparse/schema.py

pewho · 2024-04-17T09:30:48Z

magicparse/schema.py

+
+        return items, errors
+
+    def stream_parse(self, data: Union[bytes, BytesIO]) -> Iterable[Tuple[dict, dict]]:


Pour info, il n'est plus nécessaire d’hériter des types de typing pour les collections, et il existe une syntaxe dédiée à l'union). le type dict n'est pas non plus complet, mais ça devient un poil complexe au niveau refacto, on peut utiliser Any pour la valeur, la clef par contre devrait tjrs etre des str, non ?
On pourrait réécrire le type en :

def stream_parse(self, data: bytes | BytesIO) -> Iterable[tuple[dict[str, Any], dict[str, Any]]]: ...

Je suis d'accord avec toi Mathias !
Mais pour faire ça il faut d'abord bump la version de Python du projet dans le Dockerfile (passer de 3.9 à 3.11) et faire pareil dans pyproject.toml.
C'est pas un gros changement et de toute façon le seul service qui consomme magicparse est external-is qui est déjà en Python 3.11

On peut faire ça dans une autre PR en parallèle aussi, c'est pas directement lié à celle ci et ce n'est pas bloquant.

ducdetronquito

Quelques remarques mais sinon c'est top !

ducdetronquito · 2024-04-17T09:49:39Z

Faudrait que tu vois avec un gars de ton équipe pour avoir poetry fonctionnel sur ta machine + les hooks de pre commit!
Ca t'éviterait les erreurs en CI ^^

tests/test_schema.py

sGeeK44 · 2024-04-17T10:21:54Z

tests/test_schema.py

+
+class TestStreaming(TestCase):  
+
+    def test_stream_parse_errors_do_not_halt_parsing(self):


J'ai l'impression que tu tests beaucoup de chose en un :)

Quel est l'intention derrière ce test spécifiquement ?

Oui, J'ai repris un test existant sur parse qui me semblait testé un cas passant et un cas échouant.
Pour le reste je me suis dit que dupliquer tous les tests n'avait pas de valeur ajoutée sachant que parse appelle stream_parse et me semblait déjà bien couverte.

sGeeK44

Pas grand chose à dire de plus que les autres ! :)

antoine-b-smartway · 2024-04-17T12:39:17Z

Faudrait que tu vois avec un gars de ton équipe pour avoir poetry fonctionnel sur ta machine + les hooks de pre commit! Ca t'éviterait les erreurs en CI ^^

Une doc que je pourrais suivre pour installer ça ?

pyproject.toml

ducdetronquito

Faut juste un passage du formateur black + flake8 et ça devrait passer la CI :)

…nsumption of memory

ducdetronquito · 2024-04-22T14:10:50Z

Pour créer une nouvelle version il te faut:

merger cette PR dans la branche main
Créer un tag sur la branch main 0.12.0 (git tag -a 0.12.0)
Push (la CI va s'occuper de créer une "release github" + déployer sur CodeArtifact) (git push --tags)

antoine-b-smartway commented Apr 17, 2024

View reviewed changes

antoine-b-smartway requested review from ducdetronquito and sGeeK44 April 17, 2024 08:49

antoine-b-smartway self-assigned this Apr 17, 2024

antoine-b-smartway requested a review from a team April 17, 2024 08:49

ducdetronquito reviewed Apr 17, 2024

View reviewed changes

README.md Outdated Show resolved Hide resolved

ducdetronquito reviewed Apr 17, 2024

View reviewed changes

magicparse/schema.py Outdated Show resolved Hide resolved

ducdetronquito reviewed Apr 17, 2024

View reviewed changes

magicparse/schema.py Outdated Show resolved Hide resolved

pewho reviewed Apr 17, 2024

View reviewed changes

ducdetronquito approved these changes Apr 17, 2024

View reviewed changes

sGeeK44 reviewed Apr 17, 2024

View reviewed changes

tests/test_schema.py Outdated Show resolved Hide resolved

sGeeK44 reviewed Apr 17, 2024

View reviewed changes

sGeeK44 approved these changes Apr 17, 2024

View reviewed changes

antoine-b-smartway force-pushed the task/int-699-stream-parsing branch 2 times, most recently from 35815c3 to 3fc9254 Compare April 18, 2024 14:42

ducdetronquito reviewed Apr 19, 2024

View reviewed changes

pyproject.toml Show resolved Hide resolved

ducdetronquito approved these changes Apr 19, 2024

View reviewed changes

Add stream parsing in Schema class + temporary tests to verify the co…

e11a82d

…nsumption of memory

antoine-b-smartway force-pushed the task/int-699-stream-parsing branch from fb32e77 to e11a82d Compare April 19, 2024 14:38

antoine-b-smartway merged commit 6c81c2a into main Apr 22, 2024
5 checks passed

antoine-b-smartway deleted the task/int-699-stream-parsing branch April 22, 2024 14:58

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add stream parsing in Schema class #25

Add stream parsing in Schema class #25

antoine-b-smartway commented Apr 17, 2024

antoine-b-smartway Apr 17, 2024

pewho Apr 17, 2024

ducdetronquito Apr 17, 2024

ducdetronquito Apr 17, 2024 •

edited

Loading

ducdetronquito left a comment

ducdetronquito commented Apr 17, 2024

sGeeK44 Apr 17, 2024

antoine-b-smartway Apr 17, 2024

sGeeK44 left a comment

antoine-b-smartway commented Apr 17, 2024

ducdetronquito left a comment

ducdetronquito commented Apr 22, 2024


		return items, errors

		def stream_parse(self, data: Union[bytes, BytesIO]) -> Iterable[Tuple[dict, dict]]:


		class TestStreaming(TestCase):

		def test_stream_parse_errors_do_not_halt_parsing(self):

Add stream parsing in Schema class #25

Add stream parsing in Schema class #25

Conversation

antoine-b-smartway commented Apr 17, 2024

antoine-b-smartway Apr 17, 2024

Choose a reason for hiding this comment

pewho Apr 17, 2024

Choose a reason for hiding this comment

ducdetronquito Apr 17, 2024

Choose a reason for hiding this comment

ducdetronquito Apr 17, 2024 • edited Loading

Choose a reason for hiding this comment

ducdetronquito left a comment

Choose a reason for hiding this comment

ducdetronquito commented Apr 17, 2024

sGeeK44 Apr 17, 2024

Choose a reason for hiding this comment

antoine-b-smartway Apr 17, 2024

Choose a reason for hiding this comment

sGeeK44 left a comment

Choose a reason for hiding this comment

antoine-b-smartway commented Apr 17, 2024

ducdetronquito left a comment

Choose a reason for hiding this comment

ducdetronquito commented Apr 22, 2024

ducdetronquito Apr 17, 2024 •

edited

Loading