Closed avostryakov closed 6 years ago
cc @victorbocharov, @svbichineva Честно говоря - в такой формулировке сложновато.
Наверно пугает формулировка: размечать все :) Если я понимаю правильно, то можно было бы добавить функционал, разметить конкретное слово: система ищет и показывает все предложения, где это слово еще не размечено и предлагает разметить. Можно хотя бы для существительных для начала, чтобы упростить. То есть искать можно только существительнные, так как с ними вроде как больше проблем обычно.
Смотрите, при текущем workflow в проекте это даст мало смысла. Все задания разбиты на группы (пулы) по 50-200 штук, и попадает на модерацию и потом в дамп только пул целиком. Поэтому даже если разметить все вхождения данного слова, то это в целом нисколько не ускорит попадание этой разметки в дамп.
В принципе было бы можно помечать пулы с нужными словами как приоритетные, и они бы показывались выше при разметке и при прочих равных уходили на модерацию раньше. Но всё равно, кажется, смысла мало. Подождём, может, коллеги что-то добавят.
Как у модератора, у меня стоит приоритет отправлять в дамп пулы, где омонимия противопоставляется по начальным формам (как в вашем случае) и по частям речи, так как я понимаю, что от этого зависит точность pymorphy2.
Посмотрела в корпусе --- большинство примеров со словом лук уже разобраны (удален разбор лука). Вопрос в том, как часто у pymorphy2 обновляется score у слов (@kmike). Если установить его с pip сейчас, то у меня получился тот же score у всех слов. Не знаю, может на master что-то другое.
morph.parse('лук')
Parse(word='лук', tag=OpencorporaTag('NOUN,inan,femn plur,gent'), normal_form='лука', score=0.3333333333333333, methods_stack=((<DictionaryAnalyzer>, 'лук', 43, 8),)),
Parse(word='лук', tag=OpencorporaTag('NOUN,inan,masc sing,nomn'), normal_form='лук', score=0.3333333333333333, methods_stack=((<DictionaryAnalyzer>, 'лук', 330, 0),)),
Parse(word='лук', tag=OpencorporaTag('NOUN,inan,masc sing,accs'), normal_form='лук', score=0.3333333333333333, methods_stack=((<DictionaryAnalyzer>, 'лук', 330, 4),))
По идее, score у слова лук должен быть чуть-чуть выше, чем у слова лука, и тогда вы сможете выбрать первый наиболее частотный вариант.
Спасибо! Я где-то месяц назад хотел обновить, но у меня все скрипты сломались из-за того, что в корпусе появились пометки, которых нет в словаре, и пока руки не дошли эти скрипты починить.
А что за пометки в корпусе, которых нет в словаре? SYMB?
@kmike, всеми руками болею за обновление словаря pymorphy2 :)
Да, вроде она. Вы что-то чинили? Я сейчас проверил, все нормально отработало 👍 Обновленные словари выложил на pypi, но они только для pymorphy2 с гитхаба.
Закрываю. Если что, пишите.
@avostryakov, вопрос для меня животрепещущий, поэтому начал движение в этом направлении.
@grandsbor, сделал оперативную (несколько часов после выхода словаря) сборку docker образа pymorphy2
с соответствующими словарями. Пока для 0.8
версии.
Оформил, может быть даже ссылку стоит где-то оставить. У меня кейс такой, что хочется использовать добавленные слова как можно скорее, нет возможности ждать pypi, думаю я такой не один.
Так вроде в Pymorphy2 была функция типа "скачать последний словарь с сайта и использовать его"?
30 ноя 2017 г. 10:25 PM пользователь "Evgeny Blinov" < notifications@github.com> написал:
@avostryakov https://github.com/avostryakov, вопрос для меня животрепещущий, поэтому начал движение в этом направлении.
@grandsbor https://github.com/grandsbor, сделал оперативную (несколько часов после выхода словаря) сборку docker образа pymorphy2 с соответствующими словарями. Пока для 0.8 версии. Оформил, может быть даже ссылку стоит где-то оставить. У меня кейс такой, что хочется использовать добавленные слова как можно скорее, нет возможности ждать pypi, думаю я такой не один.
— You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub https://github.com/OpenCorpora/opencorpora/issues/806#issuecomment-348293902, or mute the thread https://github.com/notifications/unsubscribe-auth/AE1rkcub6I1q_c_uOFLfj9paPNC1tN45ks5s7wE0gaJpZM4M2wSv .
@grandsbor, там последовательность команд, не так чтобы "запустил и использовал его", зависимости с библиотеками, насколько я понимаю.
Собственно контейнер ничего хитрого не имеет под собой, это же самое и делает. Однако позволяет не вникать в тонкости сборки и не ожидать её, ресурсы тоже немалые сборка требует. Ну и актуальность поддерживается "на автомате" не требуется городить что-то на каждой инсталяции pymorphy
Ок, тогда, наверно, можно попросить @kmike сделать ссылку с сайта Pymorphy2
30 ноя 2017 г. 10:45 PM пользователь "Evgeny Blinov" < notifications@github.com> написал:
@grandsbor https://github.com/grandsbor, там последовательность команд, не так чтобы "запустил и использовал его", зависимости с библиотеками, насколько я понимаю.
Собственно контейнер ничего хитрого не имеет под собой, это же самое и делает. Однако позволяет не вникать в тонкости сборки и не ожидать её, ресурсы тоже немалые сборка требует. Ну и актуальность поддерживается "на автомате" не требуется городить что-то на каждой инсталяции pymorphy
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/OpenCorpora/opencorpora/issues/806#issuecomment-348299279, or mute the thread https://github.com/notifications/unsubscribe-auth/AE1rkbxwZpDuDQ0h-MM2zC7oLLmkvFhqks5s7wXTgaJpZM4M2wSv .
Я встретил ошибку в библиотеке pymorphy2, которая использует opencorpora внутри при парсинге слова "лук". Оказалось, дело в том что есть еще слово "лука",которая имеет форму "лук" (мн. число, родительный падеж). И так получается, что на первом месте оказывается словоформа от слова "лука". Я бы хотел иметь возможность размечать в opencorpora все, что связано с конкретным словом, когда я встречаю ошибку. Думаю, что это полезно большинству людей, так как люди встречают свои конктерные оишбки в практике и им хочется поправить в первую очеердь именно их.
Что вы об этом думаете?