Open emso-c opened 1 year ago
Haklısınız, bu şekilde bir filtreleme doğru değil.
Elde epey tweet var zaten. Direkt bir NLP modeli eğitilebilir. Destek olabilirim ben de
NLP model için bende destek olabilirim
Tweet API'ı üzerinde regex desteği yok sanırım. o yüzden o rotadan gidilirse post processing gerekebilir
regex yapılamazsa bile caseler çoğaltılabilir enkaz, 10şehrin adı yardım gibi kelimeler eklenebilir
Merhabalar, applications/tweets/tasks modülünün
collect_tweets
metodundaki filtreleme query'sişu
şekilde hard-code'lanmış:query = f"""("1.kat" OR "2.kat" OR "3.kat" OR "4.kat" OR "5.kat" OR "6.kat" OR "7.kat" OR "8.kat" OR "9.kat" OR "10.kat" OR "11.kat") OR ("birincikat" OR "ikincikat" OR "üçüncükat" OR "dördüncükat" OR "beşincikat" OR "altıncıkat" OR "yedincikat" OR "sekizincikat" OR "dokuzuncukat" OR "onuncukat" OR "onbirincikat") OR ("bina" OR "apartman" OR "apt" OR "mahalle" OR "mahallesi" OR "bulvar" OR "sokak" OR "bulvarı" OR "göçük altında" OR "daire" OR "afad" OR "sk" OR "no:") lang:tr since_time:{since_time}"
Bu filtrelere uymayan bir çok Tweet es geçiliyor. Çözüm olarak basit bir RegEx yapısı veya NLP kullanılarak herhangi bir spell-checker kütüphanesi ile daha kapsamlı bir arama yapılabilir. Tabii ki daha çok veriye erişim ile birlikte false-positive veri sayısının artacağını da göz ardı etmemek gerek.
Uygun bulursanız ilgilenmek isterim.