Closed AlainMonteil closed 7 years ago
Merci ! Le principe coté GROBID, jusqu'à présent, c'est de ne pas donner de "règles metiers/applicatives", on le laisse extraire tout ce qu'il peut, et c'est ensuite l'application qui intégre GROBID qui va filtrer, corriger, etc. ce qui est extrait en brut, en fonction de base bibliographique additionnelle, contexte d'usage, etc. Donc ces contraintes sur les dates ou autres seraient à ajouter dans anhalytics-core (c'est une issue pour anhalytics-core en fait).
@kermitt2 je vais reporter ce cas sur anhalytics-core, juste à noter que dans ce cas il s'agit visiblement d'un preprint qui a une page au début qui ne contient que les 12345 et Grobid prend en considération cette page malgré sa sécheresse :) , je ne comprends pas pourquoi il a annoté ce bout comme étant une date de publication !
GROBID fait au mieux par rapport aux connaissances des données d'entrainement et ne dispose pas de feature caractèrisant la qualité "globale" d'une page, ce qui serait une idée à ajouter à GROBID.
Ah mais je parle en amont pour grobid dans ce cas il n'y a que 5 caractères dans la page..
En général, l'idée est d'éviter toute règle ad hoc (en amont aussi) et utiliser des features pour traiter ça avec du machine learning. Peut-être que ces 5 caractères sont utiles, en particulier comme contexte pour l'extraction sur la page précédente ou suivante.
corrigé depuis 6a648ef3
Mauvaise interprétation de la date par grobid : inria-00331305 il y a en haut de la première page 12345 et qui visiblement a été pris comme date à l'affichage http://traces1.saclay.inria.fr/anHALyticsInria/ => il faudrait donner les règle de date à grobid pour qu'il exclu les aberrations par exemple yyyy ne peut pas etre supérieur à X