streamlit choose the parser

jeremyfix commented 6 months ago

quelques points :

:+1: quand on importe une configuration yaml , la liste des parsers se met bien à jour
[ ] :-1: si on ne clique pas sur le bouton "Extract Tables" tout en bas de la sidebar, on peut quand même cliquer sur la page "Pages selection" et ça crash avec 'st.session_state has no key "assets"

je ne sais pas ce qui est le mieux : le comportement d'avant était d'appliquer l'extraction dès lors qu'un rapport était uploadé . D'ailleurs, l'erreur no key assets n'est pas levée si on clique sur la page "Pages selection" sans uploader de rapport;

Sinon , quelques notes sur les modifications apportées :

:+1: le fichier de config yaml par défaut n'est plus codé en dur dans le code la page mais fourni comme app/extract_config.yaml
la transition n'est pas automatique une fois l'upload du PDF, il faut penser à cliquer sur le bouton "Extract Tables" en bas de la sidebar

Qouentinne commented 6 months ago

je ne sais pas ce qui est le mieux : le comportement d'avant était d'appliquer l'extraction dès lors qu'un rapport était uploadé . D'ailleurs, l'erreur no key assets n'est pas levée si on clique sur la page "Pages selection" sans uploader de rapport;

la transition n'est pas automatique une fois l'upload du PDF, il faut penser à cliquer sur le bouton "Extract Tables" en bas de la sidebar

Je vais repasser à l'ancien comportement et passer la logique de choix des parsers sur la page suivante (selected_pages), ça me paraît plus logique en y reréfléchissant.

RonanMorgan commented 6 months ago

t'as pas mis Extract Table ? ça me semble important pasque Kane avait pas mal insisté sur le fait que selon son expérience c'était meilleur que les autres outils

(par contre Camlelot et llamaparse à mon avis tu peux les enlever du choix par défaut

Mais sinon c'est très cool et t'as vraiment bien fait de le déplacer dans cette page.

Qouentinne commented 6 months ago

J'ai modifié les parsers par défaut. Par contre, je n'ai pas de clé API pour extracttable, j'ai suivi le readme.

dataforgoodfr / 12_taxobservatory

streamlit choose the parser #79