Open ptakopysk opened 8 months ago
V korpuse například:
/net/projects/EduPo/data/KCV_komplet/ccv/1571.json
"koulí" jako 2 slabiky:
"sections": "1010100",
"text": "Slunce – koulí plamennou!",
"pousmála" jako 4 slabiky:
"sections": "100m1000",
"text": "Milostně se pousmála,",
10810.json:
"proudem" 2 slabiky
"sections": "101010m10m10",
"text": "voda proudem stéká se šatu a kštice;",
"pouhý" 2 slabiky
"sections": "101010101010",
"text": "„Hrozno! Přelud pouhý, věru pravda není!...“",
/net/projects/EduPo/tools/kveta/dicts/diphthongs.csv
Tady má Plecháč nějaký diftongy asi z korpusu. Nevíme jestli to nějak používá anebo jak teď rozhoduje o dělení slov u "pouhý" versus "pousmát", ale v korpusu je zjevné že to nějak rozlišuje. To zkusí David ještě objevit jak to dělá. Každopádně máme asi 20 000 asi správně určenejch doftongů v tom datasetu, tak se na tom můžem asi zkusit naučit do dělat automaticky. To může zkusit Tomáš.