Detekcija botova i "trolova" na Reddit-u

sloba2424 commented 3 years ago

Tim

Slobodan Zelić SW5/2017

Asistent

Dragan Vidaković

Definicija problema

Cilj projekta je detekcija "trolova" i botova na reddit platformi analizirajući pojedinacne komentare, a ne cele profile korisnika. Ulaz u sistem je komentar koji se klasifikuje kao bot/trol ili regularan komentar.

Motivacija zašto vredi rešavati ovaj problem

Reddit je jedan od najpopularnijih foruma, tj. socijalnih mreža današnjice. Samim tim ima veliki uticaj na formiranje mišljenja i stavova ljudi. Suzbijanje trolova i botova, pogotovo na političkim forumima, ima i te kako veliku korist. Olakšava diskusiju na forumu, a i posao moderatora.

Metodologija

Prvo je urađeno pretprocesiranje podataka tako što su iz prikupljenih komentara:

uklonjeni svi emoticoni
karakteri koji nisu ASCII
http linkovi.
svaki komentar je tokenizovan i uklonjena su velika slova (Koristeći Python NLTK biblioteku)

Osnovni model koji će biti korišćen u ovom radu je Suport Vector Machine (SVM), na način na koji je implementiran u LinearSVC funkciji iz biblioteke scikitlearn u Python-u. Koristiće se SVM sa modifikovanim kernelom i različitim word embedding modelima.

Između ostalog, biće izvršena eksplorativna analiza podataka sa namerom da se stekne saznanje da li i drugi atributi iz podataka o komentarima utiču na postojanje bot/trol ponašanja u komentaru.

Sve u svemu, koristiće se (sa malim izmenama) sledeći klasifikacioni modeli: Random Forest Logistička regresija SVM Konvoluciona neuronska mreža (?)

Skup podataka

Reddit je u 2017. godini odlučio da i zvanično objavi neke troll naloge, njihove komentare itd. Tako da manjka podataka nema, kako od zvaničnog izvora, tako i od nezvaničnih. Izvor trol/bot podataka tj. komentara: https://github.com/ALCC01/reddit-suspicious-accounts Takođe planiram lično da pronalazim očigledne trolove/botove na reddit-u, i preko reddit API-ja dobavim njihove komentare. Izvor regularnih komentara: https://www.kaggle.com/reddit/reddit-comments-may-2015

Evaluacija sistema

Metod evaluacije Trening i test skup će biti podeljeni u odnosu 80:20, pri ćemu će i trening i test skup posedovati jednak broj primera za svaku klasu. Za mere performansi biće korišćena F1 mera i tačnost.

vdragan1993 commented 3 years ago

Iz definicije problema nije najjasnije šta je ulaz a šta izlaz iz sistema. Metodologija je previše uopštena - potreban je precizniji opis uz preciznije navedene algoritme koje planirate da koristite. Nedostaju linkovi za spomenute skupove podataka (posebno onaj iz dela za evaluaciju).

Korigujte prijavu.

sloba2424 commented 3 years ago

Iz definicije problema nije najjasnije šta je ulaz a šta izlaz iz sistema. Metodologija je previše uopštena - potreban je precizniji opis uz preciznije navedene algoritme koje planirate da koristite. Nedostaju linkovi za spomenute skupove podataka (posebno onaj iz dela za evaluaciju).

Korigujte prijavu.

Pozdrav, Prijava korigovana, nadam se da je sada sve u redu.

vdragan1993 commented 3 years ago

Iz definicije problema i dalje nije najjasnije šta je ulaz a šta izlaz iz sistema. Da li je u pitanju samo tekstualna klasifikacija komentara, ili je u pitanju klasifikacija naloga na osnovu komentara koji ostavljaju?

sloba2424 commented 3 years ago

Iz definicije problema i dalje nije najjasnije šta je ulaz a šta izlaz iz sistema. Da li je u pitanju samo tekstualna klasifikacija komentara, ili je u pitanju klasifikacija naloga na osnovu komentara koji ostavljaju?

U pitanju je analiza svakog komentara pojedinačno i njihova klasifikacija, umesto klasičnog posmatranja naloga/korisnika i cele istorije komentarisanja i postovanja.

Pošto su podaci relativno "zamućeni/uprljani", jer se ne može sa sigurnošću reći da li je regularan komentar ili bot/trol (iz dataseta "regularnih" komentara sa Kegla), moraću da ručno gledam da izdvajam komentare sa strogo regulisanih subreddita gde ne može bilo ko da komentariše i slično.

vdragan1993 commented 3 years ago

Tema odobrena. Ostavite link ka GitHub repozitorijumu projekta. Srećan rad.

sloba2424 commented 3 years ago

Hvala, link ka repozitorijumu: link

ftn-ai-lab / sc-2020-siit