Open mariakaryaeva opened 6 years ago
Шаг 1. На данном этапе для каждого термина из всех словарей извлекаются определения. Таким образом мы получаем для каждого термина список определений, при этом опредления-дубликаты не учитываются. Шаг 2. Для каждого термина формируется полный граф, вершинами котрого являются определения. Ребра имеют вес, который определяется как сходство между двумя опредлениями. В качестве веса ребра использована симметричные метрики -- косинусная мера близости и расстояние Левенштейна. Шаг 3. Кластеризация графа. Таким образом определения группируются по смыслу в кластеры. Шаг 4. Применение расширенных шаблонов для извлечения рода из определения. Сгененрированные шаблоны могут состоять из 1-3 слов. Шаг 5.
Визуализация графа (сделать для одного примера с кластерами)
\subsection{Word embeddings}
\begin{enumerate} \item самый простой подход: ограничиваемся существительынми, смотрим на топ5. какова точность на основе пар из викисловаря? здесь можно привести дополнительные данные о позициях, частотах и т.п.
\end{enumerate}
\subsection{Multiwords as hypernym candidates}
усложненный подход (двусловия). Можно дополнительно проверять, что есть статья Википедии с таким заголовком? \label{subsec: Lexico-syntactic patterns}
изначально я продвигал идею, что усложненный подход должен базироваться выделении согласовенного именного словосочетания -- с помощью Tomita-парсера или шаблонов на основе морфологического разбора mystem или синтаксическом разборе. я правильно понимаю, что в итоге до этого не дошли, максимум -- простые эвристики?
повторю, можно использовать тот факт, что у нас несколько словарей: 1) если определения для одного слова из разных словарей не очень похожи (можно использовать метрику, которую мы использовали в статье ``Russian Lexicographic Landscape'') и 2) из них выделяются одинковые родовые понятия -- мы в них уверены.
\subsection{Extended graph-pattern-based extraction} \begin{enumerate} \item собираем все определения для каждого термина \item удаляем дубликаты опредлений \item кластеризуем определения в группы для каждого термина (метрика косинусная мера между определениями) \item извлекаем смысловое значение из каждого кластера, которое представлено разными родовыми понятиями \end{enumerate}