ufal / edupo

EduPo: Generování české poezie v edukačním a multimediálním prostředí
MIT License
0 stars 0 forks source link

Prozkoumat zdroje knihoven pro plaintext prźu viz komunikace s Vojtěchem Vojtíškem #18

Open ptakopysk opened 1 month ago

ptakopysk commented 1 month ago

Ohledně e-knih je drtivá většina u nás, pokud by pro vás byla zajímavá OCRka digitalizovaných děl (tj. bez korektur, pouze strojově zpracovaná), pak asi nejucelenější přehled je tady:

https://ceskadigitalniknihovna.cz/search?access=open

To jsou volná díla digitalizovaná v knihovnách v ČR (100 tis. titulů), lze to pak samozřejmě filtrovat dál.

Jaký by pro byl ideální další postup ohledně využití našich e-knih? Všechny tituly najdete v našem katalogu:

https://search.mlp.cz/cz/davka/e-knihy_volne_ke_stazeni/

Nemáme mechanismus na to, jak odfiltrovat pouze volná díla (v dtb nemají takový příznak), máme kdyžtak nějaký starší seznam, podle kterého by se dalo vybírat.

Neumím určit, jestli je pro vaše účely rozhodující kvalita (tj. mohli byste si konkrétní díla vybírat a rovnou stahovat z katalogu, zda jde o volné dílo poznáte podle informace v každé knize na copyrightové stránce), nebo kvantita (pak bychom se dohodli na nějaké formě exportu dat, abyste to nemuseli tahat jednotlivě).