proycon / folia

FoLiA: Format for Linguistic Annotation - FoLiA is a rich XML-based annotation format for the representation of language resources (including corpora) with linguistic annotations. A wide variety of linguistic annotations are supported, making FoLiA a useful format for NLP tasks and data interchange. Note that the actual Python library for processing FoLiA is implemented as part of PyNLPl, this contains higher-level tools that use the library as well as the full documentation, validation schemas, and set definitions
http://proycon.github.io/folia/
GNU General Public License v3.0
60 stars 10 forks source link

Set definition frog-mbpos-cgn doesn't comply to Frog's actual output #18

Closed proycon closed 7 years ago

proycon commented 8 years ago

Since Frog assigns as class the entire pos tag with features in parentheses, we need to explicitly list all these possible conjunct classes in the set definition. Do we have a list of all possible combinations?

FLAT currently falls over this, as one of the new tools that actually uses set definitions. (issue proycon/flat#42)

proycon commented 8 years ago

Overigens is er wel wat voor te zeggen om het te doen zoals de set definitie voorschrijft, en als pos class alleen de head van de Part-of-Speech tag op te nemen, maar dit zou backward compatibility van Frog breken. (en zou om die reden dan ook een andere set moeten zijn)

kosloot commented 8 years ago

De tags staan o.a. hier: http://lands.let.ru.nl/cgn/doc_Dutch/topics/version_1.0/annot/pos_tagging/tg_prot.pdf

jet zijn er maar 320, dus opsommen kan. (ik geloof dat er in 2011 nog wat bijgekomen zijn overigens)

Frog breken lijkt me erg gevaarlijk. Goed doordenken dit....

proycon commented 8 years ago

Ons huidige set definitie formaat lijkt niet in staat om dit goed op te vangen, omdat er dubbele IDs in de subsets voorkomen. Meenemen voor v1.4 na oplossen issue #14 .

proycon commented 8 years ago

De nieuwe set (RDF in Turtle vorm) lost dit probleem nu op. Ik heb alle gecombineerde klassen uit de CGN documentatie er ingezet. De 'simpele' klassen (WW,ADJ, etc) staan in de head subset die Frog nu ook al gebruikt zie ik, maar nog niet in de oude set stond.

proycon commented 7 years ago

(Converted the set to the new SKOS model now)