Projekat se spaja sa projektom iz SIAP-a. Rešava se problem predviđanja broja lajkova koje će YouTube snimak imati. Duboko učenje će se koristiti za:
određivanje uticaja slike na popularnost video snimka, odnosno klasifikaciju video snimaka na osnovu slike
određivanje uticaja tekstualnih atributa(naziv snimka, tagovi itd.) na popularnost video snimka, odnosno klasifikaciju video snimaka na osnovu tekstualnih atributa
Izlazi iz neuronskih mreža će biti deo ulaza u regresioni model koji će predviđati broj lajkova.
Skup podataka
Osnovni skup podataka koji će se koristiti se može dobaviti sa sajta kaggle (https://www.kaggle.com/datasets/rsrishav/youtube-trending-video-dataset), i on sadrži podatke o trending YouTube video snimcima u Sjedinjenim Američkim Državama od 2020. godine(dnevno se azurira). Ovaj skup bez pretprocesiranja sadrži približno 300 000 podataka. Tekstualni atributi koji će se koristiti za klasifikaciju su dostupni u ovom skupu, i tu spadaju: naslov video snimka, oznake(tags) i naziv kanala. Za svaki video snimak postoji link do slike, pa će se slike dodatno dobavljati na osnovu linka.
Za potrebe klasifikacije snimaka na osnovu tekstualnih atributa, tekst video snimaka će se podeliti u 4 kategorije, na osnovu odnosa broja lajkova i dislajkova za video snimak:
veoma pozitivan tekst (odnos broj lajkova i dislajkova u opsegu 0-5%)
pozitivan tekst (odnos broj lajkova i dislajkova u opsegu 5-15%)
negativan tekst (odnos broj lajkova i dislajkova u opsegu 15-25%)
veoma negativan tekst (odnos broj lajkova i dislajkova je veci od 25%)
Za potrebe klasifikacije snimaka na osnovu slika, slike će se podeliti u 4 kategorije, na osnovu odnosa broja lajkova i broja pregleda za video snimak:
nepopularne slike (odnos broj lajkova i broja pregleda u opsegu 0-5%)
srednje popularne slike (odnos broj lajkova i broja pregleda u opsegu 5-15%)
popularne slike (odnos broj lajkova i broja pregleda u opsegu 15-25%)
veoma popularne slike (odnos broj lajkova i broja pregleda je veci od 25%)
Metodologija
Klasifikacija slika će biti zasnovana na transferu učenja. Kao ekstraktor osobina će se koristiti pretrenirana ResNet konvolutivna neuronska mreza, dok će se klasifikator trenirati. Prvo će se iz polaznog skupa podataka ukloniti podaci koji ukazuju na isti video snimak, jer je slika u oba slučaja ista. Zatim će se slike dobavljati na osnovu linkova. Nakon toga će se slike anotirati na prethodno opisan način. Ukoliko skup podataka ne bude bio balansiran, radiće se augmentacija slika. Ulaz će predstavljati dobavljene slike, dok će izlaz biti kategorija kojoj slika pripada.
Za klasifikaciju tekstualnih atributa radiće se fine-tuning pretreniranog BERT jezičkog modela. Tekstualni atributi iz skupa podataka koji će se koristiti su naziv snimka, oznake i naziv kanala. Prvo će se ukloniti podaci koji ukazuju na isti video snimak, nakon čega će se odraditi anotacija na prethodno opisan način. Tehnike koje će se koristiti za obradu prirodnog jezika su tokenizacija, stemovanje i padding. Ulaz u model će biti prethodno navedeni tekstualni atributi, a izlaz će biti kategorija kojoj tekst pripada.
Evaluacija
Skup podataka će se deliti na podatke za trening i test, gde će se 80% podataka koristiti za treniranje, dok preostalih 20% podataka služe za testiranje. Ovaj odnos je izabran jer daje bolje rezultate za velike skupove podataka. Za evaluaciju će se koristiti tačnost, preciznost, odziv i F1 rezultat.
Tim
Nela Jović E2 22/2023 Filip Ilić E2 25/2023
Definicija problema
Projekat se spaja sa projektom iz SIAP-a. Rešava se problem predviđanja broja lajkova koje će YouTube snimak imati. Duboko učenje će se koristiti za:
Izlazi iz neuronskih mreža će biti deo ulaza u regresioni model koji će predviđati broj lajkova.
Skup podataka
Osnovni skup podataka koji će se koristiti se može dobaviti sa sajta kaggle (https://www.kaggle.com/datasets/rsrishav/youtube-trending-video-dataset), i on sadrži podatke o trending YouTube video snimcima u Sjedinjenim Američkim Državama od 2020. godine(dnevno se azurira). Ovaj skup bez pretprocesiranja sadrži približno 300 000 podataka. Tekstualni atributi koji će se koristiti za klasifikaciju su dostupni u ovom skupu, i tu spadaju: naslov video snimka, oznake(tags) i naziv kanala. Za svaki video snimak postoji link do slike, pa će se slike dodatno dobavljati na osnovu linka.
Za potrebe klasifikacije snimaka na osnovu tekstualnih atributa, tekst video snimaka će se podeliti u 4 kategorije, na osnovu odnosa broja lajkova i dislajkova za video snimak:
Za potrebe klasifikacije snimaka na osnovu slika, slike će se podeliti u 4 kategorije, na osnovu odnosa broja lajkova i broja pregleda za video snimak:
Metodologija
Klasifikacija slika će biti zasnovana na transferu učenja. Kao ekstraktor osobina će se koristiti pretrenirana ResNet konvolutivna neuronska mreza, dok će se klasifikator trenirati. Prvo će se iz polaznog skupa podataka ukloniti podaci koji ukazuju na isti video snimak, jer je slika u oba slučaja ista. Zatim će se slike dobavljati na osnovu linkova. Nakon toga će se slike anotirati na prethodno opisan način. Ukoliko skup podataka ne bude bio balansiran, radiće se augmentacija slika. Ulaz će predstavljati dobavljene slike, dok će izlaz biti kategorija kojoj slika pripada.
Za klasifikaciju tekstualnih atributa radiće se fine-tuning pretreniranog BERT jezičkog modela. Tekstualni atributi iz skupa podataka koji će se koristiti su naziv snimka, oznake i naziv kanala. Prvo će se ukloniti podaci koji ukazuju na isti video snimak, nakon čega će se odraditi anotacija na prethodno opisan način. Tehnike koje će se koristiti za obradu prirodnog jezika su tokenizacija, stemovanje i padding. Ulaz u model će biti prethodno navedeni tekstualni atributi, a izlaz će biti kategorija kojoj tekst pripada.
Evaluacija
Skup podataka će se deliti na podatke za trening i test, gde će se 80% podataka koristiti za treniranje, dok preostalih 20% podataka služe za testiranje. Ovaj odnos je izabran jer daje bolje rezultate za velike skupove podataka. Za evaluaciju će se koristiti tačnost, preciznost, odziv i F1 rezultat.