andreybabynin / semantic_news_graph

Network News Graph based on news from Russian Telegram channels
Apache License 2.0
4 stars 2 forks source link

baseline stanza #2

Closed wisoffe closed 2 years ago

wisoffe commented 2 years ago

Основные ссылки:

Задачи:

wisoffe commented 2 years ago

Дополнительные статьи для изучения (по итогу выводы/саммари):

wisoffe commented 2 years ago

На заметку (полезная информация).

Описание универсальных зависимостей: This forms the case for dependency between every two words where one acts as the head and the other is the dependent. Currently, the Universal Dependency V2 taxonomy consists of 37 universal syntactic relations as specified in the table below:

Dependency Tag | Description -- | -- acl | clausal modifier of a noun (adnominal clause) acl:relcl | relative clause modifier advcl | adverbial clause modifier advmod | adverbial modifier advmod:emph | emphasizing word, intensifier advmod:lmod | locative adverbial modifier amod | adjectival modifier appos | appositional modifier aux | auxiliary aux:pass | passive auxiliary case | case-marking cc | coordinating conjunction cc:preconj | preconjunct ccomp | clausal complement clf | classifier compound | compound compound:lvc | light verb construction compound:prt | phrasal verb particle compound:redup | reduplicated compounds compound:svc | serial verb compounds conj | conjunct cop | copula csubj | clausal subject csubj:pass | clausal passive subject dep | unspecified dependency det | determiner det:numgov | pronominal quantifier governing the case of the noun det:nummod | pronominal quantifier agreeing in case with the noun det:poss | possessive determiner discourse | discourse element dislocated | dislocated elements expl | expletive expl:impers | impersonal expletive expl:pass | reflexive pronoun used in reflexive passive expl:pv | reflexive clitic with an inherently reflexive verb fixed | fixed multiword expression flat | flat multiword expression flat:foreign | foreign words flat:name | names goeswith | goes with iobj | indirect object list | list mark | marker nmod | nominal modifier nmod:poss | possessive nominal modifier nmod:tmod | temporal modifier nsubj | nominal subject nsubj:pass | passive nominal subject nummod | numeric modifier nummod:gov | numeric modifier governing the case of the noun obj | object obl | oblique nominal obl:agent | agent modifier obl:arg | oblique argument obl:lmod | locative modifier obl:tmod | temporal modifier orphan | orphan parataxis | parataxis punct | punctuation reparandum | overridden disfluency root | root vocative | vocative xcomp | open clausal complement
wisoffe commented 2 years ago

Проанализировать возможность дообучения (файн тюнинга) на конкретном домене (в нашем случае на новостях формата, представленного в новостных пабликах telegram): Для каждой подзадачи (tokenize, pos, lemma, ner, depparse и т.д.) используются отдельные модели, предусмотрена возможность замены моделей на кастомные, т.е. имеется возможность их дообучения/замены на свои.

wisoffe commented 2 years ago

Проанализировать возможности stanza на предмет решения задачи - на вход текст на русском языке (относительно небольшой длины ~несколько предложений) -> на выходе структурированная информация, достаточная для построения графа знаний/семантического графа (т.е. объекты, субъекты, отношения между ними)

Краткие выводы по stanza (применимость на нашем домене - новости на русском языке, из телеграмм каналов):

Краткие выводы по применимости алгоритма формирования триплетов (из статьи) на нашем домене (новости из телеграм каналов):

Код для нашего домена, формирующий триплеты из выходных данных, полученных после обработки stanza (или аналогичной библиотеки) необходимо реализовать самостоятельно.