Open Shimorina opened 6 years ago
Вот верхняя часть списка токенов, которые никогда не были ни в каких пулах:
+------------------------------+-----+
| tf_text | cnt |
+------------------------------+-----+
| статей | 95 |
| сведений | 64 |
| найма | 48 |
| цветов | 34 |
| сведениям | 24 |
| Леха | 23 |
| лагере | 21 |
| записать | 18 |
| МИД | 17 |
| судну | 15 |
| меньшую | 14 |
| Отмечу | 13 |
| записал | 13 |
| ролях | 11 |
| признаться | 11 |
| судне | 10 |
| щас | 10 |
| замечу | 10 |
| пожал | 9 |
| меньшая | 8 |
| Алёша | 8 |
| обоим | 8 |
| записали | 8 |
| Браво | 8 |
| господствующей | 7 |
| сродни | 7 |
| Георгиевич | 7 |
| записала | 7 |
| подходящее | 7 |
| отеле | 6 |
| солей | 6 |
| полмиллиарда | 6 |
| стоящей | 6 |
| Бена | 6 |
| заплачу | 6 |
| умершей | 6 |
| далеки | 5 |
| Михайлович | 5 |
| пожать | 5 |
| входящей | 5 |
| подходящей | 5 |
| капитале | 5 |
| издалека | 5 |
| языковыми | 5 |
| стула | 5 |
| стуле | 5 |
| обоими | 5 |
| воскресеньям | 5 |
По-моему, про некоторые случаи отсюда даже были тикеты.
Спасибо. На всякий случай, ещё раз напишу, что имелись в виду все токены, а не только те, которые никогда не были в пулах. Парке и формы сам, самый уже были в пулах, теперь их осталось разобрать только по лемме.
А два разбора у токена щас из списка выше -- это какой-то баг при переразборе из словаря.
Буду складывать сюда тикеты с наборами омонимичных форм, разбитых по части речи (в основном). Можно будет их закрывать по мере проверки.
ещё будут:
Создать новые типы заданий для слов, у которых все граммемы совпадают, а леммы разные. Например:
А также прилагательные на -ый/-ой в некоторых формах.
Наверное, имеет смысл для начала создать место, где соберутся все такие слова, поскольку есть вероятность, что для некоторых надо будет править словарь.