Open suchoss opened 5 years ago
V případě neshody bude obrázek zahozen.
Podle mě bude takových případů spousta - OCR není dokonalá technologie. Můj nápad je ulkádat si všechny odlišné verze a nad nimi dělat diff a případně další kouzla.
Nevím taky kolik toho umí tesseract-ocr
ale třeba Abby umí říct nakolik si je jistý.
Určitě to budeme muset následně porovnávat nějakým algoritmem, ne jen (x1==x2)
. Myslím si, že Tesseract taky vrací pravděpodobnost.
Diffování je attack vector -- záměrně upravená smlouva, která je na 99 % podobná (tj. obsahuje o dvě nuly míň), je stejně nebezpečná, jako z 20 % podobná. Určitě nemůžete věřit žádné pravděpodobnosti, kterou vám vrátí jakýkoliv klient. Co byste teoreticky mohli vymýšlet je reputační systém pro nody, kde by spory řešily stroje, kterým věříte. ALE.
Nedeterminizmus je pro Tesseract AFAIK bug. Nedeterminizmus chápu jako dva rozdílné výsledky pro stejný obrázek zpracovaný stejnou verzí nástroje. To, že dva trochu odlišné obrázky můžou být zpracovány všelijak různě je samozřejmě pravda, ale to není náš problém. Problém je na pixel stejný vstup.
Pokud máte měření, že je ten nástroj pro dva totožné vstupy schopen vrátit odlišné výsledky, určitě by bylo zajímavé jej pro mě a budoucí generace přiložit.
@lukas-lansky díky za info. Určitě se na to zkusíme podívat. Osobně jsem zatím s Tesseractem moc nepracoval. Budu to muset prověřit.
Tohle není tak úplně pro OcrMinion, ale na server. Je potřeba na serveru nastavit, aby jeden obrázek parsovali alespoň dva odlišné api klíče (kontrola), abychom odfiltrovali případné záškodníky, kteří by posílali pouze vadné dokumenty.
V případě shody bude obrázek uložen. V případě neshody bude obrázek zahozen.