ftn-ai-lab / ori-2017-siit

Materijali za predmet Osnovi računarske inteligencije
0 stars 2 forks source link

Detekcija spam komentara na YouTube snimcima #10

Open aleknik opened 7 years ago

aleknik commented 7 years ago

Članovi tima

Aleksandar Nikolić (sw25-2014) Grupa 1 Asistent Ivan Perić

Repozitorijum: https://github.com/aleknik/spam-filter

Opis problema

Na osnovu sadržaja komentara detektovati da li je komentar spam ili ne. Predviđeno je da aplikacija omogućava korisniku da direkno klasifikuje uneti komentar ili da na osnovu unetog url-a snimka dobije podatke o broju komentara na tom snimku koji su klasifikovani kao spam. Ti podaci se kasnije mogu koristiti u statističke svrhe.

Algoritmi

Ulazni podaci će se prvo obraditi tako da se zanemare znaci interpunkcije kao i reči koje nisu značajne za detekciju (the, a, is itd.). Potrebno je zanemariti i reči koje sadrže karakere koji nisu deo engleskog alfabeta.

Za ulaz će se koristiti n-gram model.

Za samu detekciju će se koristiti neki od algoritama za klasifikaciju (Naive Bayes classifier, SVM)

Metrika za proveru ispravnosti rešenje

Procenat komentara koji su uspešno klasifikovani.

Podaci koji se koriste

Skup podataka koji ce se koristiti za treniranje i testiranje je dostupan na ovom linku.

Validacija rešenja

Skup podataka će se podeliti tako da 70% bude trening skup, a 30% test skup koji ce se koristiti za validaciju.

ivan7792 commented 7 years ago

Na osnovu specifikacije izgleda kao da ovde nema ničega drugačijeg u odnosu na vežbu na kojoj smo radili analizu sentimenta. Jedina razlika je skup podataka. U tom slučaju tema nije dovoljna za projekat.

Rečenica: "Za ulazni vektor će se koristiti bag of words model" je zbunjujuća. Da li imate ulazni vektor ili bag of words model? Bag of words ne vodi računa o redosledu reči, dok je vektor uređena struktura koja vodi računa o tome. Ako vodite računa o redosledu reči, onda tema može biti dovoljna za projekat za jednu osobu, dok je u suprotnom ovo primer sa vežbi koji je primenjen na drugi skup podataka. Rok za eventualnu ispravku je 24h.

aleknik commented 7 years ago

Za ulaz ću korstiti n-gram model. Uporediću rezultate bigrama i trigrama pa ću se odlučiti za bolji.