UUDigitalHumanitieslab / AnnCor-scripts

A place for all the AnnCor scripts
MIT License
0 stars 0 forks source link

Support special cases for POS conversion #7

Closed oktaal closed 7 years ago

oktaal commented 7 years ago

From the mail of Jan Odijk:

  • Werkwoorden met een scheidbaar partikel: als bij een WW de root een underscore bevat, bijv. root="schaats_aan" dan moet het deel na de underscore eerst genegeerd worden bij de berekening (V|schaats-PASP)
    • Als het word attribuut begint met het deel achter de underscore(word=’aangeschaatst’ dan moet het gevolgd door ‘$’voor gezet worden: aan$ V|schaats-PASP
    • Anders negeren (bijv. in ‘aan te wijzen’ moet ‘wijzen’ de code krijgen: V|wijs-INF
  • Interpunctie: de symbolen worden vervangen door vastgelegde codes, bijv , door cm (zoals in het voorbeeld), . door period etc.. We zullen daar een aparte mappingtabel voor leveren