Definicija problema
Ideja ovog projekta je iz date kolekcije Twitter poruka izvršiti analizu sentimenta poruke i klasifikovati svaku poruku u jednu od sledećih emocija: sreća, tuga, ljutnja, strah, ljubav i iznenađenje. Cilj je napraviti model koji može precizno da klasifikuje Twiter poruke iz priloženog skupa podataka. Performanse modela će biti evaluirane korišćenjem klasifikacionih metrika.
Skup podataka
Svaki uzorak iz skupa podataka se sastoji od tekstualnog segmenta koji predstavlja Twitter poruku i odgovarajuće labele koja označava dominantnu emociju u datoj poruci. Emocije su podeljene u šest kategorija: tuga(0), sreća(1), ljubav(2), ljutnja(3), strah(4) i iznenađenje(5). Skup podataka raspolaže sa 416809 uzoraka. Može se pronaći na sledećem linku:
https://www.kaggle.com/datasets/nelgiriyewithana/emotions?resource=download
Metodologija
Biće izvršeno pretprocesiranje teksta gde će sve biti konvertovano u mala slova, specijalni karakteri, linkovi, kao i brojevi će biti uklonjeni. Takođe će biti primenjena i tokenizacija. Bidirekcioni LSTM će biti model koji će se obučavati. Skup podataka će biti podeljen na trening i test skup u odnosu 80:20.
Evaluacija
Prilikom evaluacije performansi modela koristiće se klasifikacione metrike kao što su tačnost, f-mera, preciznost i osetljivost(recall). Biće prikazana i matrica konfuzije kako bi se dobio jasniji prikaz ponašanja modela.
Tim Nenad Joldić E2 97/2023
Definicija problema Ideja ovog projekta je iz date kolekcije Twitter poruka izvršiti analizu sentimenta poruke i klasifikovati svaku poruku u jednu od sledećih emocija: sreća, tuga, ljutnja, strah, ljubav i iznenađenje. Cilj je napraviti model koji može precizno da klasifikuje Twiter poruke iz priloženog skupa podataka. Performanse modela će biti evaluirane korišćenjem klasifikacionih metrika.
Skup podataka Svaki uzorak iz skupa podataka se sastoji od tekstualnog segmenta koji predstavlja Twitter poruku i odgovarajuće labele koja označava dominantnu emociju u datoj poruci. Emocije su podeljene u šest kategorija: tuga(0), sreća(1), ljubav(2), ljutnja(3), strah(4) i iznenađenje(5). Skup podataka raspolaže sa 416809 uzoraka. Može se pronaći na sledećem linku: https://www.kaggle.com/datasets/nelgiriyewithana/emotions?resource=download
Metodologija Biće izvršeno pretprocesiranje teksta gde će sve biti konvertovano u mala slova, specijalni karakteri, linkovi, kao i brojevi će biti uklonjeni. Takođe će biti primenjena i tokenizacija. Bidirekcioni LSTM će biti model koji će se obučavati. Skup podataka će biti podeljen na trening i test skup u odnosu 80:20.
Evaluacija Prilikom evaluacije performansi modela koristiće se klasifikacione metrike kao što su tačnost, f-mera, preciznost i osetljivost(recall). Biće prikazana i matrica konfuzije kako bi se dobio jasniji prikaz ponašanja modela.