jerbarnes / nordial

NorDial is a project that aims to create resources and collect knowledge about the state of written Norwegian dialects on the web, specifically in social media.
Creative Commons Zero v1.0 Universal
8 stars 0 forks source link

Tvitar utan nok markørar til å avgjera kategori #1

Closed holten closed 3 years ago

holten commented 3 years ago

Det blir digert bias og, så vidt eg med min fattige forstand på slikt skjønar, muleg trøbbel nedover i treningspipelina dersom alle slike fleirtydige tvitar får labelen "bokmål" som default i datasettet.

Skjermbilde 2021-09-04 kl  14 51 40

Korleis er tankegangen her? Skulle ein ha laga ein femte "ubestembar" merkjelapp? "Normert skriftleg norsk"?

jerbarnes commented 3 years ago

Ja, jeg kunne se for meg at det kunne være problematisk hvis vi var mer interessert i de tvitene på bokmål/nynorsk. Men i og med vi er mer interessert i de som er på dialekt, er jeg ikke sikkert at det kommer til å bli et stort problem. Framover (i annotasjonene på ordsnivået) skal vi bare bruke de som er på dialekt, så jeg ville foreslå at du kunne la labelen være hvis det ikke er nok informasjon for å endre den.

Men kanskje @Tyriflis eller @SamiaTouileb har noe mer å si?

SamiaTouileb commented 3 years ago

Hei, beklager sent svar! Jeg er enig med Jeremy, siden vi seinere kommer til å kun fokusere på dialekt er det kanskje ikke så farlig hvis vi har "bias" mot bokmål? Hva er dine tanker @Tyriflis?

holten commented 3 years ago

Aha. Det blir altså eventuelle framtidige brukarar av datasettet frå GitHub som får stri med biasen, dersom dei kjem med lure idear for å nytte det annleis. Kanhende det i så fall er tilstrekkjeleg å utstyre datasettet med ei åtvaring åt desse?

jerbarnes commented 3 years ago

Ja, det kan vi godt gjøre og jeg synes det ville være tilstrekkelig. Og takk for at du tok det opp, @holten! Da stenger jeg issuen og legger til en advarsel om biasen.