HlidacStatu / OcrMinion

Client pro získávání textů z obrázkových dokumentů
MIT License
46 stars 4 forks source link

Vytvořit ověřování rozparsovaných dokumentů #10

Open suchoss opened 5 years ago

suchoss commented 5 years ago

Tohle není tak úplně pro OcrMinion, ale na server. Je potřeba na serveru nastavit, aby jeden obrázek parsovali alespoň dva odlišné api klíče (kontrola), abychom odfiltrovali případné záškodníky, kteří by posílali pouze vadné dokumenty.

V případě shody bude obrázek uložen. V případě neshody bude obrázek zahozen.

pdostal commented 5 years ago

V případě neshody bude obrázek zahozen.

Podle mě bude takových případů spousta - OCR není dokonalá technologie. Můj nápad je ulkádat si všechny odlišné verze a nad nimi dělat diff a případně další kouzla.

Nevím taky kolik toho umí tesseract-ocr ale třeba Abby umí říct nakolik si je jistý.

suchoss commented 5 years ago

Určitě to budeme muset následně porovnávat nějakým algoritmem, ne jen (x1==x2). Myslím si, že Tesseract taky vrací pravděpodobnost.

lukas-lansky commented 4 years ago

Diffování je attack vector -- záměrně upravená smlouva, která je na 99 % podobná (tj. obsahuje o dvě nuly míň), je stejně nebezpečná, jako z 20 % podobná. Určitě nemůžete věřit žádné pravděpodobnosti, kterou vám vrátí jakýkoliv klient. Co byste teoreticky mohli vymýšlet je reputační systém pro nody, kde by spory řešily stroje, kterým věříte. ALE.

Nedeterminizmus je pro Tesseract AFAIK bug. Nedeterminizmus chápu jako dva rozdílné výsledky pro stejný obrázek zpracovaný stejnou verzí nástroje. To, že dva trochu odlišné obrázky můžou být zpracovány všelijak různě je samozřejmě pravda, ale to není náš problém. Problém je na pixel stejný vstup.

Pokud máte měření, že je ten nástroj pro dva totožné vstupy schopen vrátit odlišné výsledky, určitě by bylo zajímavé jej pro mě a budoucí generace přiložit.

suchoss commented 4 years ago

@lukas-lansky díky za info. Určitě se na to zkusíme podívat. Osobně jsem zatím s Tesseractem moc nepracoval. Budu to muset prověřit.