acikyazilimagi / deprem-yardim-backend

afetharita.com backend projesi
Apache License 2.0
383 stars 74 forks source link

Daha kapsamlı Tweet Filtreleme #142

Open emso-c opened 1 year ago

emso-c commented 1 year ago

Merhabalar, applications/tweets/tasks modülünün collect_tweets metodundaki filtreleme query'si şu şekilde hard-code'lanmış:

query = f"""("1.kat" OR "2.kat" OR "3.kat" OR "4.kat" OR "5.kat" OR "6.kat" OR "7.kat" OR "8.kat" OR "9.kat" OR "10.kat" OR "11.kat") OR ("birincikat" OR "ikincikat" OR "üçüncükat" OR "dördüncükat" OR "beşincikat" OR "altıncıkat" OR "yedincikat" OR "sekizincikat" OR "dokuzuncukat" OR "onuncukat" OR "onbirincikat") OR ("bina" OR "apartman" OR "apt" OR "mahalle" OR "mahallesi" OR "bulvar" OR "sokak" OR "bulvarı" OR "göçük altında" OR "daire" OR "afad" OR "sk" OR "no:") lang:tr since_time:{since_time}"

Bu filtrelere uymayan bir çok Tweet es geçiliyor. Çözüm olarak basit bir RegEx yapısı veya NLP kullanılarak herhangi bir spell-checker kütüphanesi ile daha kapsamlı bir arama yapılabilir. Tabii ki daha çok veriye erişim ile birlikte false-positive veri sayısının artacağını da göz ardı etmemek gerek.

Uygun bulursanız ilgilenmek isterim.

0zd3m1r commented 1 year ago

Haklısınız, bu şekilde bir filtreleme doğru değil.

Euryanassa commented 1 year ago

Elde epey tweet var zaten. Direkt bir NLP modeli eğitilebilir. Destek olabilirim ben de

atakankizilyuce commented 1 year ago

NLP model için bende destek olabilirim

furknozg commented 1 year ago

Tweet API'ı üzerinde regex desteği yok sanırım. o yüzden o rotadan gidilirse post processing gerekebilir

BunyaminSanli commented 1 year ago

regex yapılamazsa bile caseler çoğaltılabilir enkaz, 10şehrin adı yardım gibi kelimeler eklenebilir