Open C4MCI opened 1 month ago
Sayı algılama bokunu yaptım sayılır. Bir kaç tane farklı yöntem denedim fakat en son Template Matching kullanmaya karar verdim.
easyOCR ve pyTesseract gibi ready to use text recognizer modeller kullanmayı denedim fakat bunlar dataset resimlerinde çok güzel çalışsada kendi test videomda hiç iyi çalışmadılar. Işıklandırma ve text rotasyonu anında kötğ çalışmalarına sebep oluyo.
MNIST kullanarak sadece "1,2,3" rakamlarını tanıyacak bir model oluşturup onunla çalışmayı denedim fakat çok farklı bi sonuç alamadım.
ORG ve SIFT gibi feature matching algoritmaları kullandım fakat bunlar test videosunda dahi çalışsalar bile 2 ve 3 rakamını birbirinden çok ayıramadılar. Büyük ihtimalle ben beceremedim.
Ben de son çare Template Matching kullanarak yaptım,
eğer yarışmada sadece 3 liman olacak ve liman tabelalarının şekilleri ve fontları teknofestin paylaştığı gibi olacaksa template matching işimize yarar gibi.
Şu an tabeladaki rakamı algılayabiliyor ve tabelanın kaç derece yamuk durduğunu da söylüyo (sırf hesaplattığım için yazdırdım :D).
Masanmın üstüne teknofestteki liman tabelası resimlerini printleyip rastgele koydum ve telefonla kuş bakışıı video çekmeye çalıştım, bu test videosunda şu an iyi çalışıyor.
https://github.com/user-attachments/assets/820f8c08-29d9-4ea2-922a-1d72d7c723f3
cpu'da çalıştığı için çok az lag oluyo ama cpu'ya geçince düzelir gibi. bir de küçük contourlar oluşturup onları da algılamaya çalıştırıyo, min contour boyutu belirleyip onlardan kurtulmaya çalışcam.
Saygılar abim
virgülden öncesi detect ettiği numara, sonrası da açısı onu yazmayı unutmuşm