ufal / edupo

EduPo: Generování české poezie v edukačním a multimediálním prostředí
MIT License
0 stars 0 forks source link

zkusit pomocí GPT4 určovat téma básně #7

Open ptakopysk opened 9 months ago

ptakopysk commented 9 months ago

Jednak bychom tím možná mohli měřit smysluplnost básně --- pokud je smysluplná tak by asi měla mít jasnější téma...?

A jednak by se nám tio mohlo hodit jako anotace datasetu, abychom pak mohli fine-tunovat model, který bude generovat báseň na dané téma.

ptakopysk commented 9 months ago

Bendík diplomka: https://dspace.cvut.cz/handle/10467/108779

ptakopysk commented 9 months ago

Možná pomocí GPT4 to neni vono. Zkoušeli jsme ÚFAL KER ale asi keywordy neni to co chcem. Asi kouknout na HuggingFace co tam je za modely který třeba určujou téma textu? (Klidně na angličtině, můžem to protáhnout překladem, to na téma asi nevadí.)

jinymusim commented 8 months ago

V tom článku On the power of special-purpose GPT models to create and evaluate new poetry in old styles, tam používají gpt-3.5 a promptují ho sadou kategorií ze kterých má vybrat.

Zkouším to teď pomocí mistralu a něco to dělá.

ptakopysk commented 8 months ago

Stav a myšlenky a plány k tomu po dnešku:

Shrnutí obsahu básně může bejt dobrá cesta k vyhodnocování kvality a smysluplnosti básně, asi.

jinymusim commented 8 months ago

Je to pomoci Mixtral-Instruct 8x7B! cswikimistral nefuguje dobře.

davidmarecek commented 8 months ago

české a anglické vygenerované summaries pomocí GPT4 pro 30 náhodně vybraných básní jsou v /net/projects/EduPo/data/ccv-new-summary-gpt4

ptakopysk commented 8 months ago

Přeložil jsem Lindatem pro tadytěch 30 básní summaries od Michala Lindatem a přidal to do těch Michalovo Jsonů. Jednoduché vylistítko a zobrazítko zde: https://ufallab.ms.mff.cuni.cz/cgi-bin/rosa/edupo/scripts/show_poems.sh

ptakopysk commented 8 months ago

...a navíc jsme teď ještě přidali Lindat překlady EN summaries do těch Davidovo fajlů, takže každej gpt4 fajl má teď 3 summaries: vygenerovanou EN, vygenerovanou CS, a EN přeloženou do CS.