En nettside som gjetter om du er mann eller kvinne basert på hva du skriver
🇬🇧 EnglishDette er repoet for backenden til prosjektet mann-eller-kvinne. Frontenden kan du finne her.
Nettsida gjetter om du er mann eller kvinne ved bruk av enkel maskinlæring. Maskinlæringsmodellen er trent på over 3000 anmeldelser fra norsk media og har som formål å finne ut av hva som skiller kvinner og menn skriftlig.
Konseptet er inspirert av debatten som oppstod i Berteheussen-saken, hvor det skal ha blitt diskutert hvorvidt det er en mann som kan ha skrevet trusselbrevene som er omtalt. Dette på grunn av at ordet "tisse" ble brukt fremfor ordet "pisse". Du kan lese mer om saken her
Om du mener at denne kan forbedres, kan du gjerne bidra. Har du kunnskap om maskinlæring så er det bare å åpne opp din favoritteditor og hive seg på! Sjekk bidragsguiden. Om du kan React og webutvikling kan du også bidra med å forbedre frontenden ved å dra til frontendrepoet som er nevnt ovenfor.
Denne nettsiden er laget for å utforske forskjellene mellom menn og kvinner. Det skal derimot sies at modellen som er brukt for å gjøre antagelser er lite optimert og er basert på en ganske liten mengde data. Man skal dermed ikke ta denne så seriøst. Dette er bare et prosjekt laget for morrohetens skyld og er ikke ment for bruk til forskning eller andre seriøse formål.
Det ligger også en docker-compose fil i dette repoet som vil sette opp både backend og frontend gjennom Docker. Merk deg derimot at bruk av denne metoden kan sette restriksjoner på konfigurasjonen din. Se frontendrepoet for mer info.
Takk til LtgOslo som har laget det taggede korpuset, datasettet, som er brukt til å trene maskinlæringsmodellen.
Du kan finne korpuset som er brukt her
@inproceedings{touileb-etal-2020-gender,
title = "Gender and sentiment, critics and authors: a dataset of {N}orwegian book reviews",
author = "Touileb, Samia and {\O}vrelid, Lilja and Velldal, Erik",
booktitle = "Proceedings of the Second Workshop on Gender Bias in Natural Language Processing",
month = dec,
year = "2020",
address = "Barcelona, Spain (Online)",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.gebnlp-1.11",
pages = "125--138"
}