Closed proycon closed 7 years ago
Overigens is er wel wat voor te zeggen om het te doen zoals de set definitie voorschrijft, en als pos class alleen de head van de Part-of-Speech tag op te nemen, maar dit zou backward compatibility van Frog breken. (en zou om die reden dan ook een andere set moeten zijn)
De tags staan o.a. hier: http://lands.let.ru.nl/cgn/doc_Dutch/topics/version_1.0/annot/pos_tagging/tg_prot.pdf
jet zijn er maar 320, dus opsommen kan. (ik geloof dat er in 2011 nog wat bijgekomen zijn overigens)
Frog breken lijkt me erg gevaarlijk. Goed doordenken dit....
Ons huidige set definitie formaat lijkt niet in staat om dit goed op te vangen, omdat er dubbele IDs in de subsets voorkomen. Meenemen voor v1.4 na oplossen issue #14 .
De nieuwe set (RDF in Turtle vorm) lost dit probleem nu op. Ik heb alle gecombineerde klassen uit de CGN documentatie er ingezet. De 'simpele' klassen (WW,ADJ, etc) staan in de head subset die Frog nu ook al gebruikt zie ik, maar nog niet in de oude set stond.
(Converted the set to the new SKOS model now)
Since Frog assigns as class the entire pos tag with features in parentheses, we need to explicitly list all these possible conjunct classes in the set definition. Do we have a list of all possible combinations?
FLAT currently falls over this, as one of the new tools that actually uses set definitions. (issue proycon/flat#42)