driessenberend / Polarity_in_Parliament-Thesis_Berend_Driessen

MSc Thesis - Polarity in parliament
1 stars 0 forks source link

Update 10-5-2023 #7

Open driessenberend opened 1 year ago

driessenberend commented 1 year ago

Hi @maartenmarx,

Bij deze de agenda voor vanmiddag. Ik had drie vragen.

Link naar Overleaf: https://www.overleaf.com/project/643410eb44dd32ed6300f1bf

Agendapunt 1.

Bij het samenvoegen van de vertaalde speeches aan het dataframe met de metadata per speech liep ik tegen een probleem aan.

Het data van de vertaalde bestanden is opgedeeld in losse zinnen. De dataset met de metadata (spreker/partij etc.) is opgedeeld per spreker; oftewel meerdere zinnen. Dit zou geen probleem hoeven zijn, ware het niet dat de ID’s van de speeches en zinnen niet overeen komen. Dit maakt het erg lastig om de bestanden samen te voegen.

Nu vroeg ik mij af of je toevallig iemand weet bij ParlaMint die mij hier verder mee kan helpen. Zij hebben de data van beide bestanden verwerkt, dus weten hier misschien een oplossing voor.

Agendapunt 2.

Voor mijn derde subvraag staat er nu een multiclass classificatie van 3 verschillende partijen + een classificatie in paren van twee (bijvoorbeeld VVD – PvdA). Multiclass classificatie presteert (logischerwijs) slechter, en ik vroeg me af of dit wel nuttig is om dit er in te laten of ze gewoon per paren van twee te vergelijken.

Agendapunt 3.

BERT-embeddings hebben een maximale input van 512 tokens. Een deel van de speeches is langer dan dit maximum, echter niet veel.

Originele corpus: 318.268
Corpus zonder speeches >512: 291.727

Je kan dit oplossen met een sliding window approach, of door alleen speeches die korter zijn dan 512 tokens meenemen. Bij beide opties gaat er informatie verloren. Wat denk jij hierover?

Ik kijk uit naar je antwoord.

Hartelijke groet,

Berend Driessen 14554682

maartenmarx commented 1 year ago

Hi @driessenberend , mijn excuss voor het lange wachten op mijn comentaar op je draft. Zie hieronder. Ik vind het heel erg goed, en zeer goed gedocumenteerd. Je resultaten vallen wat tegen, maar je vind toch nog best gave dingen. Nu nog de laatste loodjes. Stuur me fraag een issue als je de resultaten ruw hebt, en alllicht ook je beangrijkste conclusies. Dan kijk ik er graag naar. Ook om je te behoeden voor te wilde conclusies ;-)

examiners

OK laat het weten, en succes met de laatste loodjes! groet maarten

commentaar scriptie draft Berend


Intro

sec 2

sec 3

3.2

3.3

4.1

4.2

maartenmarx commented 1 year ago

@driessenberend , ik was dit vergeten. Je zit tegen de limiet van 10 pagians aan, maar ik stel voor dat je je daar niks van aantrekt en de ruimte neemt om je resultaten goed en helder op te schrijven en graphics en eventueell screenshots in te voegen. Het eerste deell is zo goed gedocumenteerd, dat ik het zonde zou vinden daar nu in te gaan snijden. Maak het niet al te bont, en je krijgt daar dan geen strafpunten voor hoor. Veel succes!! Maarten

driessenberend commented 1 year ago

Hi @maartenmarx , bedankt voor de uitgebreide feedback. Ik ga er mee aan de slag. Zal het qua extra pagina's niet te bont maken.

Klein Nijenhuis en Wouter Attenveldt ken ik niet. Kun je hen vragen als je denkt dat zij het interessant vinden? In Datanose staat Yuri Demchenko nu als mijn examiner.

Groet,

Berend

maartenmarx commented 1 year ago

Fiujn @driessenberend , als je nog verder commentaar van me wilt, maak dan een issue met heel gestructuteerd,

succes maarten