OpenCorpora / opencorpora

A web-based engine for creating and annotating textual corpora
http://opencorpora.org
GNU General Public License v2.0
241 stars 23 forks source link

Категории несловарных слов #873

Open victorbocharov opened 4 years ago

victorbocharov commented 4 years ago
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | wc -l
37183
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | wc -l
24644
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | grep -Eo '^[А-ЯЁа-яё]+$' | wc -l
19214
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | sort | uniq | grep -Eo '^[А-ЯЁа-яё]+\-[А-ЯЁа-яё]+$' | wc -l
1335

Категории:

  1. ADJF Anum

    • ^\d+-[еймхя]$ -му -ый -го -ми -ого -ую -ое -ом -ей -ой
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0-9]+\-[еймхя]' | wc -l
917

Наверное, тут возможны все падежные окончания и их части, которые есть в парадигме.

  1. Даты

    • ^[0123]?\d.[0123]\d.[12]\d\d\d$
    • ^[0123]?\d-[0123]\d-[12]\d\d\d$
    • ^[0123]?\d.[0123]\d.\d\d$
    • ^[0123]?\d-[0123]\d-\d\d$
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0123]?[0-9][\.\-][0123][0-9][\.\-][12][0-9][0-9][0-9]' | wc -l
181
bzcat annot.opcorpora.xml.bz2 | grep '<token id=' | grep UNKN | grep -Eo 'text=\"[^\"]+\"' | sed -E 's/^text=\"//' | sed -E 's/\"$//' | grep -Eo '[0123]?[0-9][\.\-][0123][0-9][\.\-][0-9][0-9]' | wc -l
221
  1. Время

    • ^[012]\d:[012]\d:[012]\d$
    • ^[012]\d:[012]\d$
  2. Счёт (результат спортивного соревнования)

    • ^\d$:\d+$
  3. ADJF

    • ^\d+-(кило|мега|гига|милли|нано)?(летний|бальный|дюймовый|метровый|процентный|песенный|битный|вековой|томный|титомный|часовой|минутный|секундный|страничный|сотенный|тысячный|миллионный|миллиардный|триллионный|ватный|мильный|этажный|значный|гранный|фунтовый|буквенный|градусный|точечный|литровый|пиксельный|месячный|годовой|годичный|цилиндровый|кратный|разрядный) + все падежные окончания
  4. 18-летие / 18-летье

    • ^\d+-лет[ьи].+$
  5. URL

    • ^\w+://[\w\d]+[\w\d.-]+[\w\d]+ - со включённым Unicode, чтобы \w срабатывало на нелатинице
    • ^www.[\w\d]+[\w\d.-]+[\w\d]+
  6. e-mail

    • ^[\w\d]+[\w\d-._+]+[\w\d]+@\w+[\w\d-.+]+.\w+$ - тут Unicode скорее вредит
  7. ISBN

    • ^\d+-\d+-\d+-[\dX]$
    • ^(978|979)-\d+-\d+-\d+-[\dX]$
  8. β-блокаторов / α-гликозидазы

    • ^\p{Greek}-[А-Яёа-яё]+$
grandsbor commented 4 years ago

18-летие / 18-летье

По-моему, это словарные слова. Как "1-й".

grandsbor commented 4 years ago

Добавил DATE и TIME.

grandsbor commented 4 years ago

Предлагаю добавить в SYMB:

victorbocharov commented 4 years ago

Предлагаю добавить в SYMB:

* токены, полностью состоящие из греческих букв, а также смеси греческого и латиницы,

* иероглифы.

так мы их не будем отличать от плюса, равно и прочих долларов. Иероглифами у нас там целые иностранные слова идут (это как LATN, только иероглифы).

grandsbor commented 4 years ago

Предлагай свой вариант :)

victorbocharov commented 4 years ago

Предлагаю на том же уровне, что POST (т.е. без родителя) завести

victorbocharov commented 4 years ago

Смесь греческого и латиницы у нас выглядит вот так:

      7 1986U2R/ζ
      2 hν
      1 Nρ 
      1 mEξ
      1 mEη
      1 ehν
      1 3Rhν

У меня пока нет идей, как с ними поступить.

svbichineva commented 4 years ago

Может, создать MIXD для смешения разных символов?

grandsbor commented 4 years ago

Сделал HANI и GREK.