Closed wisoffe closed 2 years ago
Дополнительные статьи для изучения (по итогу выводы/саммари):
На заметку (полезная информация).
Описание универсальных зависимостей: This forms the case for dependency between every two words where one acts as the head and the other is the dependent. Currently, the Universal Dependency V2 taxonomy consists of 37 universal syntactic relations as specified in the table below:
Dependency Tag | Description -- | -- acl | clausal modifier of a noun (adnominal clause) acl:relcl | relative clause modifier advcl | adverbial clause modifier advmod | adverbial modifier advmod:emph | emphasizing word, intensifier advmod:lmod | locative adverbial modifier amod | adjectival modifier appos | appositional modifier aux | auxiliary aux:pass | passive auxiliary case | case-marking cc | coordinating conjunction cc:preconj | preconjunct ccomp | clausal complement clf | classifier compound | compound compound:lvc | light verb construction compound:prt | phrasal verb particle compound:redup | reduplicated compounds compound:svc | serial verb compounds conj | conjunct cop | copula csubj | clausal subject csubj:pass | clausal passive subject dep | unspecified dependency det | determiner det:numgov | pronominal quantifier governing the case of the noun det:nummod | pronominal quantifier agreeing in case with the noun det:poss | possessive determiner discourse | discourse element dislocated | dislocated elements expl | expletive expl:impers | impersonal expletive expl:pass | reflexive pronoun used in reflexive passive expl:pv | reflexive clitic with an inherently reflexive verb fixed | fixed multiword expression flat | flat multiword expression flat:foreign | foreign words flat:name | names goeswith | goes with iobj | indirect object list | list mark | marker nmod | nominal modifier nmod:poss | possessive nominal modifier nmod:tmod | temporal modifier nsubj | nominal subject nsubj:pass | passive nominal subject nummod | numeric modifier nummod:gov | numeric modifier governing the case of the noun obj | object obl | oblique nominal obl:agent | agent modifier obl:arg | oblique argument obl:lmod | locative modifier obl:tmod | temporal modifier orphan | orphan parataxis | parataxis punct | punctuation reparandum | overridden disfluency root | root vocative | vocative xcomp | open clausal complementПроанализировать возможность дообучения (файн тюнинга) на конкретном домене (в нашем случае на новостях формата, представленного в новостных пабликах telegram): Для каждой подзадачи (tokenize, pos, lemma, ner, depparse и т.д.) используются отдельные модели, предусмотрена возможность замены моделей на кастомные, т.е. имеется возможность их дообучения/замены на свои.
Проанализировать возможности stanza на предмет решения задачи - на вход текст на русском языке (относительно небольшой длины ~несколько предложений) -> на выходе структурированная информация, достаточная для построения графа знаний/семантического графа (т.е. объекты, субъекты, отношения между ними)
Краткие выводы по stanza (применимость на нашем домене - новости на русском языке, из телеграмм каналов):
Краткие выводы по применимости алгоритма формирования триплетов (из статьи) на нашем домене (новости из телеграм каналов):
Код для нашего домена, формирующий триплеты из выходных данных, полученных после обработки stanza (или аналогичной библиотеки) необходимо реализовать самостоятельно.
Основные ссылки:
Задачи: