morfologik / morfologik-stemming

Tools for finite state automata construction and dictionary-based morphological dictionaries. Includes Polish stemming dictionary.
BSD 3-Clause "New" or "Revised" License
187 stars 44 forks source link

Strange words found/others not found #24

Closed mikolajz closed 10 years ago

mikolajz commented 10 years ago

Random things I've stumbled upon:

milekpl commented 10 years ago
m ten dylemat, i     czasami [czas:subst:pl:inst:m3]     do tej pory przed uczestniczeniem
2.   firanki, kwiaty, a  czasami [czas:subst:pl:inst:m3]     zwierzaki na parapecie. Natomiast
3.   uprawnień. Publiczność widywała go  czasami [czas:subst:pl:inst:m3]     wciśniętego skromnie w kącik obszernego
4.  . – no to Ankę    czasami [czas:subst:pl:inst:m3]     wiesz widywałam jeszcze no
5.   wyznań powiedział mi, że     czasami [czas:subst:pl:inst:m3]     czuje niesmak, bo nie
6.   ty – no Tinka też    czasami [czas:subst:pl:inst:m3]     żyje w symbiozie – że
7.   wybór, wspólna decyzja,   czasami [czas:subst:pl:inst:m3]     konieczność życiowa. Zdarza się
8.   je załatwić mój asystent,    czasami [czas:subst:pl:inst:m3]     jednak muszę interweniować osobiście -
9.  , wiem że bywa on   czasami [czas:subst:pl:inst:m3]     brutalny. Ale nigdy nie
10.  lata niezbyt szybko, ale    czasami [czas:subst:pl:inst:m3]     osiąga nawet 90 km/

Overall, these are not errors.

mikolajz commented 10 years ago

I was confused by "wieczorem" being often annotated as Adv in ann_words.xml. However, in ann_morphosyntax.xml (that is closer to Morfologik) it's true it's always a noun. For "czasami" there is only one annotation as adjective (in NKJP 1.1; word morph_8.36-seg in directory 330-2-000011) - so that's probably a wrong annotation that should be reported?

milekpl commented 10 years ago

"Czasami" as adjective? You mean as adverb? Indeed, in some dictionaries it is described as an adverb (http://www.wsjp.pl/index.php?id_hasla=31431&ind=0&w_szukaj=czasami).

mikolajz commented 10 years ago

Sorry, I meant adverb.