This sentence breaks HungarianTokenizerSentenceSplitter: Abban az esetben, ha a - fiktív - www.kereso.elte.hu szervertől kérjük a www.kereso.elte.hu/nev=kiss,jozsef%kar=jog%tagozat=nappali címen található oldalt, akkor az elképzelt kiszolgálónk a kérésre megmutatná a megnevezett egyetemi hallgatóról rendelkezésre álló adatokat. The online demo, on the other hand, processes this sentence without problems
As far as I can understand, the error comes from two sources:
the URL is broken into tokens
MySplitter inserts both the URL and the tokens returned by the main splitter class, so the tokens would be [..., "www.kereso.elte.hu/nev=kiss,jozsef%kar=jog%tagozat=nappali", "www", ".", "kereso.elte.hu", ...]
The former behaviour is the same in the online demo; the second seems to be particular to hunlp-GATE. Which is strange, since when I downloaded magyarlanc and replaced the jar in hunlp-GATE with it, the error persisted.
This sentence breaks
HungarianTokenizerSentenceSplitter
: Abban az esetben, ha a - fiktív - www.kereso.elte.hu szervertől kérjük a www.kereso.elte.hu/nev=kiss,jozsef%kar=jog%tagozat=nappali címen található oldalt, akkor az elképzelt kiszolgálónk a kérésre megmutatná a megnevezett egyetemi hallgatóról rendelkezésre álló adatokat. The online demo, on the other hand, processes this sentence without problemsAs far as I can understand, the error comes from two sources:
MySplitter
inserts both the URL and the tokens returned by the main splitter class, so the tokens would be[..., "www.kereso.elte.hu/nev=kiss,jozsef%kar=jog%tagozat=nappali", "www", ".", "kereso.elte.hu", ...]
The former behaviour is the same in the online demo; the second seems to be particular to hunlp-GATE. Which is strange, since when I downloaded magyarlanc and replaced the jar in hunlp-GATE with it, the error persisted.