Категории несловарных слов

victorbocharov commented 4 years ago

bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | wc -l
37183

bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | wc -l
24644

bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | grep -Eo '^[А-ЯЁа-яё]+$' | wc -l
19214

bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | grep -Eo '^[А-ЯЁа-яё]+\-[А-ЯЁа-яё]+$' | wc -l
1335

Категории:

ADJF Anum
- ^\d+-[еймхя]$ -му -ый -го -ми -ого -ую -ое -ом -ей -ой

bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0-9]+\-[еймхя]' | wc -l
917

Наверное, тут возможны все падежные окончания и их части, которые есть в парадигме.

Даты
- ^[0123]?\d.[0123]\d.[12]\d\d\d$
- ^[0123]?\d-[0123]\d-[12]\d\d\d$
- ^[0123]?\d.[0123]\d.\d\d$
- ^[0123]?\d-[0123]\d-\d\d$

bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0123]?[0-9][\.\-][0123][0-9][\.\-][12][0-9][0-9][0-9]' | wc -l
181

bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0123]?[0-9][\.\-][0123][0-9][\.\-][0-9][0-9]' | wc -l
221

Время
- ^[012]\d:[012]\d:[012]\d$
- ^[012]\d:[012]\d$
Счёт (результат спортивного соревнования)
- ^\d$:\d+$
ADJF
- ^\d+-(кило|мега|гига|милли|нано)?(летний|бальный|дюймовый|метровый|процентный|песенный|битный|вековой|томный|титомный|часовой|минутный|секундный|страничный|сотенный|тысячный|миллионный|миллиардный|триллионный|ватный|мильный|этажный|значный|гранный|фунтовый|буквенный|градусный|точечный|литровый|пиксельный|месячный|годовой|годичный|цилиндровый|кратный|разрядный) + все падежные окончания
18-летие / 18-летье
- ^\d+-лет[ьи].+$
URL
- ^\w+://[\w\d]+[\w\d.-]+[\w\d]+ - со включённым Unicode, чтобы \w срабатывало на нелатинице
- ^www.[\w\d]+[\w\d.-]+[\w\d]+
e-mail
- ^[\w\d]+[\w\d-._+]+[\w\d]+@\w+[\w\d-.+]+.\w+$ - тут Unicode скорее вредит
ISBN
- ^\d+-\d+-\d+-[\dX]$
- ^(978|979)-\d+-\d+-\d+-[\dX]$
β-блокаторов / α-гликозидазы
- ^\p{Greek}-[А-Яёа-яё]+$

grandsbor commented 4 years ago

18-летие / 18-летье

По-моему, это словарные слова. Как "1-й".

grandsbor commented 4 years ago

Добавил DATE и TIME.

grandsbor commented 4 years ago

Предлагаю добавить в SYMB:

токены, полностью состоящие из греческих букв, а также смеси греческого и латиницы,
иероглифы.

victorbocharov commented 4 years ago

Предлагаю добавить в SYMB:

* токены, полностью состоящие из греческих букв, а также смеси греческого и латиницы,

* иероглифы.

так мы их не будем отличать от плюса, равно и прочих долларов. Иероглифами у нас там целые иностранные слова идут (это как LATN, только иероглифы).

grandsbor commented 4 years ago

Предлагай свой вариант :)

victorbocharov commented 4 years ago

Предлагаю на том же уровне, что POST (т.е. без родителя) завести

помету FRGN
его дочерние пометы:
- LATN (её, кажется, в списке граммем нет),
- HANI - иероглифы
- GREK
- ARAB
- HERB
- ... (можно и далее вдохновляться https://en.wikipedia.org/wiki/ISO_15924 , если потребуется)

victorbocharov commented 4 years ago

Смесь греческого и латиницы у нас выглядит вот так:

      7 1986U2R/ζ
      2 hν
      1 Nρ 
      1 mEξ
      1 mEη
      1 ehν
      1 3Rhν

У меня пока нет идей, как с ними поступить.

svbichineva commented 4 years ago

Может, создать MIXD для смешения разных символов?

grandsbor commented 4 years ago

Сделал HANI и GREK.

OpenCorpora / opencorpora

Категории несловарных слов #873