Projekat se spaja sa projektom iz SIAP-a.
Detekcija phishing e-mail poruka.
Svake godine, phishing rezultuje gubicima u vrijednosti milijardi dolara i predstavlja značajnu prijetnju za internet ekonomiju. Od izbijanja koronavirusa 2019. godine (COVID-19), pitanje phishing napada postalo je predmet velikog interesovanja. Među svim metodama, zlonamjerni korisnici često preferiraju napade putem e-mail poruka, jer su takvi napadi teži za detekciju.
Skup podataka
Kao skup podataka koristiće se kombinacija Nazario i SpamAssassin . U slučaju potrebe za većim skupom podataka, vršiće se kombinovanje ovih skupova sa ostalim skupovima sa linka.
Takođe, kako maliciozni URL-ovi igraju veliku ulogu u detekciji, dodatno će se koristiti i skup podataka sa maliciozim URL-ovima.
Metodologija
Kako se projekat spaja sa projektom iz SIAP-a, vršiće se poređenje rezultata tamo obrađenih modela sa LSTM, finetuned BERT i CNN pristupima, te će se osim tijela email poruka posmatrati i druge značajne karakteristike(zaglavlje, informacije o pošiljaocu, URL-ovi...). Takođe, rad predlaže upotrebu LSTM-CNN arhitekture, kombinujući 1D konvolucioni sloj i LSTM sloj u cilju postizanja boljih rezultata, pa će i navedena arhitektura biti uključena.
Evaluacija
Kao metrike za evaluaciju će biti korištene: Recall, Precision, Accuracy, F1-score, AUC-ROC, False Positive Rate (FPR) i False Negative Rate (FNR)
Tim
Branislav Roljić R2 6/2023
Definicija problema
Projekat se spaja sa projektom iz SIAP-a. Detekcija phishing e-mail poruka. Svake godine, phishing rezultuje gubicima u vrijednosti milijardi dolara i predstavlja značajnu prijetnju za internet ekonomiju. Od izbijanja koronavirusa 2019. godine (COVID-19), pitanje phishing napada postalo je predmet velikog interesovanja. Među svim metodama, zlonamjerni korisnici često preferiraju napade putem e-mail poruka, jer su takvi napadi teži za detekciju.
Skup podataka
Kao skup podataka koristiće se kombinacija Nazario i SpamAssassin . U slučaju potrebe za većim skupom podataka, vršiće se kombinovanje ovih skupova sa ostalim skupovima sa linka. Takođe, kako maliciozni URL-ovi igraju veliku ulogu u detekciji, dodatno će se koristiti i skup podataka sa maliciozim URL-ovima.
Metodologija
Kako se projekat spaja sa projektom iz SIAP-a, vršiće se poređenje rezultata tamo obrađenih modela sa LSTM, finetuned BERT i CNN pristupima, te će se osim tijela email poruka posmatrati i druge značajne karakteristike(zaglavlje, informacije o pošiljaocu, URL-ovi...). Takođe, rad predlaže upotrebu LSTM-CNN arhitekture, kombinujući 1D konvolucioni sloj i LSTM sloj u cilju postizanja boljih rezultata, pa će i navedena arhitektura biti uključena.
Evaluacija
Kao metrike za evaluaciju će biti korištene: Recall, Precision, Accuracy, F1-score, AUC-ROC, False Positive Rate (FPR) i False Negative Rate (FNR)