dataforgoodfr / 12_taxobservatory

Repository containing scripts for gathering, parsing, filtering, and visualizing declared taxes data present in Country-by-country reports
https://dataforgood.fr/projects/eutaxobservatory
MIT License
10 stars 3 forks source link

streamlit choose the parser #79

Closed Qouentinne closed 6 months ago

jeremyfix commented 6 months ago

quelques points :

je ne sais pas ce qui est le mieux : le comportement d'avant était d'appliquer l'extraction dès lors qu'un rapport était uploadé . D'ailleurs, l'erreur no key assets n'est pas levée si on clique sur la page "Pages selection" sans uploader de rapport;

Sinon , quelques notes sur les modifications apportées :

Qouentinne commented 6 months ago

je ne sais pas ce qui est le mieux : le comportement d'avant était d'appliquer l'extraction dès lors qu'un rapport était uploadé . D'ailleurs, l'erreur no key assets n'est pas levée si on clique sur la page "Pages selection" sans uploader de rapport;

la transition n'est pas automatique une fois l'upload du PDF, il faut penser à cliquer sur le bouton "Extract Tables" en bas de la sidebar

Je vais repasser à l'ancien comportement et passer la logique de choix des parsers sur la page suivante (selected_pages), ça me paraît plus logique en y reréfléchissant.

RonanMorgan commented 6 months ago

t'as pas mis Extract Table ? ça me semble important pasque Kane avait pas mal insisté sur le fait que selon son expérience c'était meilleur que les autres outils

(par contre Camlelot et llamaparse à mon avis tu peux les enlever du choix par défaut

Mais sinon c'est très cool et t'as vraiment bien fait de le déplacer dans cette page.

Qouentinne commented 6 months ago

J'ai modifié les parsers par défaut. Par contre, je n'ai pas de clé API pour extracttable, j'ai suivi le readme.