OpenCorpora / opencorpora

A web-based engine for creating and annotating textual corpora
http://opencorpora.org
GNU General Public License v2.0
241 stars 23 forks source link

Новые типы пулов по лемме #837

Open Shimorina opened 6 years ago

Shimorina commented 6 years ago

Создать новые типы заданий для слов, у которых все граммемы совпадают, а леммы разные. Например:

А также прилагательные на -ый/-ой в некоторых формах.

Наверное, имеет смысл для начала создать место, где соберутся все такие слова, поскольку есть вероятность, что для некоторых надо будет править словарь.

grandsbor commented 6 years ago

Вот верхняя часть списка токенов, которые никогда не были ни в каких пулах:

+------------------------------+-----+
| tf_text                      | cnt |
+------------------------------+-----+
| статей                       |  95 |
| сведений                     |  64 |
| найма                        |  48 |
| цветов                       |  34 |
| сведениям                    |  24 |
| Леха                         |  23 |
| лагере                       |  21 |
| записать                     |  18 |
| МИД                          |  17 |
| судну                        |  15 |
| меньшую                      |  14 |
| Отмечу                       |  13 |
| записал                      |  13 |
| ролях                        |  11 |
| признаться                   |  11 |
| судне                        |  10 |
| щас                          |  10 |
| замечу                       |  10 |
| пожал                        |   9 |
| меньшая                      |   8 |
| Алёша                        |   8 |
| обоим                        |   8 |
| записали                     |   8 |
| Браво                        |   8 |
| господствующей               |   7 |
| сродни                       |   7 |
| Георгиевич                   |   7 |
| записала                     |   7 |
| подходящее                   |   7 |
| отеле                        |   6 |
| солей                        |   6 |
| полмиллиарда                 |   6 |
| стоящей                      |   6 |
| Бена                         |   6 |
| заплачу                      |   6 |
| умершей                      |   6 |
| далеки                       |   5 |
| Михайлович                   |   5 |
| пожать                       |   5 |
| входящей                     |   5 |
| подходящей                   |   5 |
| капитале                     |   5 |
| издалека                     |   5 |
| языковыми                    |   5 |
| стула                        |   5 |
| стуле                        |   5 |
| обоими                       |   5 |
| воскресеньям                 |   5 |

По-моему, про некоторые случаи отсюда даже были тикеты.

Shimorina commented 6 years ago

Спасибо. На всякий случай, ещё раз напишу, что имелись в виду все токены, а не только те, которые никогда не были в пулах. Парке и формы сам, самый уже были в пулах, теперь их осталось разобрать только по лемме.

А два разбора у токена щас из списка выше -- это какой-то баг при переразборе из словаря.

grandsbor commented 5 years ago

Буду складывать сюда тикеты с наборами омонимичных форм, разбитых по части речи (в основном). Можно будет их закрывать по мере проверки.

ещё будут: