nytud / hunlp-GATE

Lang_Hungarian - a GATE plugin containing Hungarian NLP tools as GATE processing resources
GNU General Public License v3.0
8 stars 6 forks source link

ML3 tokenizer chokes on certain inputs #19

Open DavidNemeskey opened 7 years ago

DavidNemeskey commented 7 years ago

This sentence breaks HungarianTokenizerSentenceSplitter: Abban az esetben, ha a - fiktív - www.kereso.elte.hu szervertől kérjük a www.kereso.elte.hu/nev=kiss,jozsef%kar=jog%tagozat=nappali címen található oldalt, akkor az elképzelt kiszolgálónk a kérésre megmutatná a megnevezett egyetemi hallgatóról rendelkezésre álló adatokat. The online demo, on the other hand, processes this sentence without problems

As far as I can understand, the error comes from two sources:

The former behaviour is the same in the online demo; the second seems to be particular to hunlp-GATE. Which is strange, since when I downloaded magyarlanc and replaced the jar in hunlp-GATE with it, the error persisted.