anHALytics / anHALytics-frontend

Frontend interfaces suited for anHALytics API (in development)
3 stars 1 forks source link

pb date year 12345 #44

Closed AlainMonteil closed 7 years ago

AlainMonteil commented 8 years ago

Mauvaise interprétation de la date par grobid : inria-00331305 il y a en haut de la première page 12345 et qui visiblement a été pris comme date à l'affichage http://traces1.saclay.inria.fr/anHALyticsInria/ => il faudrait donner les règle de date à grobid pour qu'il exclu les aberrations par exemple yyyy ne peut pas etre supérieur à X

kermitt2 commented 8 years ago

Merci ! Le principe coté GROBID, jusqu'à présent, c'est de ne pas donner de "règles metiers/applicatives", on le laisse extraire tout ce qu'il peut, et c'est ensuite l'application qui intégre GROBID qui va filtrer, corriger, etc. ce qui est extrait en brut, en fonction de base bibliographique additionnelle, contexte d'usage, etc. Donc ces contraintes sur les dates ou autres seraient à ajouter dans anhalytics-core (c'est une issue pour anhalytics-core en fait).

Aazhar commented 8 years ago

@kermitt2 je vais reporter ce cas sur anhalytics-core, juste à noter que dans ce cas il s'agit visiblement d'un preprint qui a une page au début qui ne contient que les 12345 et Grobid prend en considération cette page malgré sa sécheresse :) , je ne comprends pas pourquoi il a annoté ce bout comme étant une date de publication !

kermitt2 commented 8 years ago

GROBID fait au mieux par rapport aux connaissances des données d'entrainement et ne dispose pas de feature caractèrisant la qualité "globale" d'une page, ce qui serait une idée à ajouter à GROBID.

Aazhar commented 8 years ago

Ah mais je parle en amont pour grobid dans ce cas il n'y a que 5 caractères dans la page..

kermitt2 commented 8 years ago

En général, l'idée est d'éviter toute règle ad hoc (en amont aussi) et utiliser des features pour traiter ça avec du machine learning. Peut-être que ces 5 caractères sont utiles, en particulier comme contexte pour l'extraction sur la page précédente ou suivante.

Aazhar commented 7 years ago

corrigé depuis 6a648ef3