medzuslovjansky / projekty

Nove ideje. Poiskańje dobrovoljcev. Tutčasne statusy.
6 stars 0 forks source link

Rekomendacije po sintaksě #65

Open noomorph opened 1 year ago

noomorph commented 1 year ago

Medžuslovjanska sintaksa ne je formalizovana i je prěmnogo svobodna.

@bt2901 proponuje iztvoriti prěporuky na osnově korpusa tekstov prirodnyh slovjanskyh jezykov:

my možemo izměriti tipičny poredok slov v paralelnyh rěčenjah na raznyh slovjanskyh jezykah, opisati razliky i imati vslěd togo někake prěporuky o najvyše razumlivom/prirodnom sintaksu MS

bt2901 commented 1 year ago

Како ја виджу туту работу?

Туты чланок даваје методу за корпусну анализу: https://www.dialog-21.ru/media/1335/124.pdf

1) беремо рєченја на разных језыках, кторе сут прєводами једного оригинала 2) изтварјајемо PoS-значкы за всако слово (тутчас не јест тежко издєлати туто хвала модерновым технологијам: udpipe и spacy увєрено знајут туто сразумєти, принајменје за высокоресурсне језыкы) 3) такым взором имамо замєсто рєчениј строкы подобне на (Verb) (Pronoun) (Noun) или (Pronoun) (Verb) (Pronoun) (Noun), меджу кторыми можно изчислити дистанцију Левенштејна.

Базоју за анализу можно взети корпус рєчениј из flores200 (он имаје паралелне рєченја на 13 словјанскых језыках): https://github.com/facebookresearch/flores/tree/main/flores200 или Малого Принца (имамо свободно приступне прєклады на PL, CZ, BG, BE, UK, RU, CR и такоже на ISV).

Нєкторе можне пытанја:

1) позиција клитиков (что јест "друга позиција" в рєченју? сут ли нєкторе слова, кторе често притегивајут к собє клитикы?) 2) позиција копулы 3) јест ли разлика в користанју прєдложников?