alhasha001 / thesis

This repository contains the related thesis materials
0 stars 0 forks source link

Update 18-Mar-2022 #4

Open alhasha001 opened 2 years ago

alhasha001 commented 2 years ago

Hi @maartenmarx

In de notebook linkje vindt u een update met notes, wat ik gedaan heb en wat ik nog moet doen.

Helaas heb ik niet zoveel afgemaakt als ik had verwachtwant want ik had issues die ik moest fixen met shape-detection en had veel deadlines deze week.

Notebooks: https://github.com/alhasha001/thesis/blob/main/experiments/detect/Update%201.ipynb

maartenmarx commented 2 years ago

Hi ammar,

  1. Dat ziet er heel veelbeloved uit joh! Je bent heel goed op weg!
  2. Praat met Fajar over OCR. Hij heeft goede settings, en vertelde bijvoorbeeld dat PyTesseract slecht werkt.
  3. Het is wel heel leuk als je die nummers er ook zoveel mogelijk bij kunt vinden.
  4. De tweede aanpak zou ik verder mee gaan, want die kleuren komen niet te veel voor.
  5. Je zou nog een module moeten maken die de regios aan elkaar plakt (zoals in je laatste voorbeeld).
  6. Probeer zelf eens wat tricky voorbeelden te maken, en laat je methode daar op los.
    • Probeer hem te misleiden.
  7. Heb je al gezocht naar methodes voor deze taak, over papers die dit precies doen?
  8. Bcubed P en R: wat worden je items? Pixels? Of karakters? Het laatste denk ik: maar hoe doe je dat?
  9. Je kan natuurlijk ook simpeler P en R maten gebruiken: gewoon blokken tellen en vergelijken, met exact match en partial match.

OK veel succes, Leuk. Dit gaat heel goed en er komt echt wat uit! fijn weekend maarten

alhasha001 commented 2 years ago

Goeiemorgen @maartenmarx

Bedankt voor de tips! Ik heb alleen een vraag. Ik begrijp alleen punt 5 niet helemaal.

In het laatste voorbeeld waren alle lijnen / text weggelakt. Ik heb ze niet aan elkaar geplakt, alleen de weggelakte regios gedetecteerd en de rode bounding-boxes getekend.

Groeten,

Ammar

maartenmarx commented 2 years ago

Hi @alhasha001 , ja, wilde je ze nou niet liever aan elkaar plakken? Het is toch eigenlijk 1 groot deel dat is weggelakt.

Nou ja, het maakt ook niet veel uit. Het is wel leuk als je met een schatting kan komen van het percentage karakters op een pagina dat is weggelakt. Dan ben je af van die "blokken". Zou dat lukken?

Echt gaaf werk hoor!

alhasha001 commented 2 years ago

Oke, Ik snap wat u bedoelt beter nu, thanks. Ja denk dat het zou lukken. Ik ben al bezig met het berekenen van de schatting van het percentage.