Navi-IDA / issue-repo

0 stars 0 forks source link

İHA Sayı Algılama #6

Open C4MCI opened 1 month ago

C4MCI commented 1 month ago
  1. görev için ihanın sayıları algılaması gerekiyor. İhadaki işlem gücü kısıtlı olacağından yolo dışında sayıları algılayabileceğimiz metodlar nedir bir araştırmamız gerekiyor.
AhadAydin commented 1 month ago

Sayı algılama bokunu yaptım sayılır. Bir kaç tane farklı yöntem denedim fakat en son Template Matching kullanmaya karar verdim.

easyOCR ve pyTesseract gibi ready to use text recognizer modeller kullanmayı denedim fakat bunlar dataset resimlerinde çok güzel çalışsada kendi test videomda hiç iyi çalışmadılar. Işıklandırma ve text rotasyonu anında kötğ çalışmalarına sebep oluyo.

MNIST kullanarak sadece "1,2,3" rakamlarını tanıyacak bir model oluşturup onunla çalışmayı denedim fakat çok farklı bi sonuç alamadım.

ORG ve SIFT gibi feature matching algoritmaları kullandım fakat bunlar test videosunda dahi çalışsalar bile 2 ve 3 rakamını birbirinden çok ayıramadılar. Büyük ihtimalle ben beceremedim.

Ben de son çare Template Matching kullanarak yaptım,

eğer yarışmada sadece 3 liman olacak ve liman tabelalarının şekilleri ve fontları teknofestin paylaştığı gibi olacaksa template matching işimize yarar gibi.

Şu an tabeladaki rakamı algılayabiliyor ve tabelanın kaç derece yamuk durduğunu da söylüyo (sırf hesaplattığım için yazdırdım :D).

Masanmın üstüne teknofestteki liman tabelası resimlerini printleyip rastgele koydum ve telefonla kuş bakışıı video çekmeye çalıştım, bu test videosunda şu an iyi çalışıyor.

https://github.com/user-attachments/assets/820f8c08-29d9-4ea2-922a-1d72d7c723f3

cpu'da çalıştığı için çok az lag oluyo ama cpu'ya geçince düzelir gibi. bir de küçük contourlar oluşturup onları da algılamaya çalıştırıyo, min contour boyutu belirleyip onlardan kurtulmaya çalışcam.

Saygılar abim

AhadAydin commented 1 month ago

virgülden öncesi detect ettiği numara, sonrası da açısı onu yazmayı unutmuşm