NLCR / Standard_NDK

Máme nový web https://standardy.ndk.cz. Záloha dokumentů z webu je stále dostupná na uložišti https://owncloud.cesnet.cz/index.php/s/yB70zl80HuZdKhP.
7 stars 0 forks source link

ALTO - character confidence (CC) a word confidence (WC) #212

Open MarekFiser opened 3 months ago

MarekFiser commented 3 months ago

Od verze 1.5 (periodika) a 1.1 (monografie) byla z nějakého důvodu zrušena u ALTO souborů v elementu povinnost atributů WC a CC. Je to už dost prastará záležitost, ale nevíte z jakého důvodu? V současnosti by se s rozvojem kvality OCR by takováto informace byla silně žádoucí, například by se dala implementovat do klienta Krameria - aby měl uživatel představu, jak moc může důvěřovat výsledkům vyhledávání v daném dokumentu. Samozřejmě předpokladem jsou důvěryhodné výstupy z OCR software, ale to by se mělo např. v PERU v dohledné době vyladit...

honza-rychtar commented 3 months ago

Pokud OCR software umí používat confidence na výstupu (a PERO by to měl umět), tak to určitě chceme. Tohle ja pak hlavně užitečné pro manuální opravy. Aby se nemusely procházet celé texty, ale jen se vysvítila slova s WC < 0.9 třeba.