ufal / edupo

EduPo: Generování české poezie v edukačním a multimediálním prostředí
MIT License
0 stars 0 forks source link

zkusit se naučit rozhodovat dvojhláska/dvě hlásky #12

Open ptakopysk opened 8 months ago

ptakopysk commented 8 months ago

/net/projects/EduPo/tools/kveta/dicts/diphthongs.csv Tady má Plecháč nějaký diftongy asi z korpusu. Nevíme jestli to nějak používá anebo jak teď rozhoduje o dělení slov u "pouhý" versus "pousmát", ale v korpusu je zjevné že to nějak rozlišuje. To zkusí David ještě objevit jak to dělá. Každopádně máme asi 20 000 asi správně určenejch doftongů v tom datasetu, tak se na tom můžem asi zkusit naučit do dělat automaticky. To může zkusit Tomáš.

ptakopysk commented 8 months ago

V korpuse například:

/net/projects/EduPo/data/KCV_komplet/ccv/1571.json

"koulí" jako 2 slabiky:

"sections": "1010100",
"text": "Slunce – koulí plamennou!",

"pousmála" jako 4 slabiky:

"sections": "100m1000",
"text": "Milostně se pousmála,",
ptakopysk commented 8 months ago

10810.json:

"proudem" 2 slabiky

"sections": "101010m10m10",
"text": "voda proudem stéká se šatu a kštice;",

"pouhý" 2 slabiky

"sections": "101010101010",
"text": "„Hrozno! Přelud pouhý, věru pravda není!...“",