Closed sloba2424 closed 3 years ago
Iz definicije problema nije najjasnije šta je ulaz a šta izlaz iz sistema. Metodologija je previše uopštena - potreban je precizniji opis uz preciznije navedene algoritme koje planirate da koristite. Nedostaju linkovi za spomenute skupove podataka (posebno onaj iz dela za evaluaciju).
Korigujte prijavu.
Iz definicije problema nije najjasnije šta je ulaz a šta izlaz iz sistema. Metodologija je previše uopštena - potreban je precizniji opis uz preciznije navedene algoritme koje planirate da koristite. Nedostaju linkovi za spomenute skupove podataka (posebno onaj iz dela za evaluaciju).
Korigujte prijavu.
Pozdrav, Prijava korigovana, nadam se da je sada sve u redu.
Iz definicije problema i dalje nije najjasnije šta je ulaz a šta izlaz iz sistema. Da li je u pitanju samo tekstualna klasifikacija komentara, ili je u pitanju klasifikacija naloga na osnovu komentara koji ostavljaju?
Iz definicije problema i dalje nije najjasnije šta je ulaz a šta izlaz iz sistema. Da li je u pitanju samo tekstualna klasifikacija komentara, ili je u pitanju klasifikacija naloga na osnovu komentara koji ostavljaju?
U pitanju je analiza svakog komentara pojedinačno i njihova klasifikacija, umesto klasičnog posmatranja naloga/korisnika i cele istorije komentarisanja i postovanja.
Pošto su podaci relativno "zamućeni/uprljani", jer se ne može sa sigurnošću reći da li je regularan komentar ili bot/trol (iz dataseta "regularnih" komentara sa Kegla), moraću da ručno gledam da izdvajam komentare sa strogo regulisanih subreddita gde ne može bilo ko da komentariše i slično.
Tema odobrena. Ostavite link ka GitHub repozitorijumu projekta. Srećan rad.
Tim
Slobodan Zelić SW5/2017
Asistent
Dragan Vidaković
Definicija problema
Cilj projekta je detekcija "trolova" i botova na reddit platformi analizirajući pojedinacne komentare, a ne cele profile korisnika. Ulaz u sistem je komentar koji se klasifikuje kao bot/trol ili regularan komentar.
Motivacija zašto vredi rešavati ovaj problem
Reddit je jedan od najpopularnijih foruma, tj. socijalnih mreža današnjice. Samim tim ima veliki uticaj na formiranje mišljenja i stavova ljudi. Suzbijanje trolova i botova, pogotovo na političkim forumima, ima i te kako veliku korist. Olakšava diskusiju na forumu, a i posao moderatora.
Metodologija
Prvo je urađeno pretprocesiranje podataka tako što su iz prikupljenih komentara:
Osnovni model koji će biti korišćen u ovom radu je Suport Vector Machine (SVM), na način na koji je implementiran u LinearSVC funkciji iz biblioteke scikitlearn u Python-u. Koristiće se SVM sa modifikovanim kernelom i različitim word embedding modelima.
Između ostalog, biće izvršena eksplorativna analiza podataka sa namerom da se stekne saznanje da li i drugi atributi iz podataka o komentarima utiču na postojanje bot/trol ponašanja u komentaru.
Sve u svemu, koristiće se (sa malim izmenama) sledeći klasifikacioni modeli: Random Forest Logistička regresija SVM Konvoluciona neuronska mreža (?)
Skup podataka
Reddit je u 2017. godini odlučio da i zvanično objavi neke troll naloge, njihove komentare itd. Tako da manjka podataka nema, kako od zvaničnog izvora, tako i od nezvaničnih. Izvor trol/bot podataka tj. komentara: https://github.com/ALCC01/reddit-suspicious-accounts Takođe planiram lično da pronalazim očigledne trolove/botove na reddit-u, i preko reddit API-ja dobavim njihove komentare. Izvor regularnih komentara: https://www.kaggle.com/reddit/reddit-comments-may-2015
Evaluacija sistema
Metod evaluacije Trening i test skup će biti podeljeni u odnosu 80:20, pri ćemu će i trening i test skup posedovati jednak broj primera za svaku klasu. Za mere performansi biće korišćena F1 mera i tačnost.