damian0604 / newsevents

Other
3 stars 0 forks source link

overwegen om openbare dataset te gebruiken #1

Open damian0604 opened 5 years ago

damian0604 commented 5 years ago

bijvoorbeeld

@article{Yeh, archivePrefix = {arXiv}, arxivId = {arXiv:1908.02322v1}, author = {Yeh, Chia-lun and Loni, Babak and Reinhardt, Henrike and Schuth, Anne}, eprint = {arXiv:1908.02322v1}, file = {:home/damian/.local/share/data/Mendeley Ltd./Mendeley Desktop/Downloaded/Yeh et al. - Unknown - DpgMedia2019 A Dutch News Dataset for Partisanship Detection.pdf:pdf}, title = {{DpgMedia2019: A Dutch News Dataset for Partisanship Detection}} }

mariekevh commented 5 years ago

Ja, ik ben het er wel mee eens dat het een goed idee is om een openbare dataset te gebruiken zodat iedereen het voorbeeld na kan doen voordat mensen kunnen het toepassen op hun eigen data, aangezien het een methodologisch paper is.

Ik denk dat als wij het zouden gebruiken om inhoudelijke conclusies te trekken, we wel INCA data zouden kunnen gebruiken en dus kranten van verschillende uitgevers (en niet alleen De Persgroep).

Wat betreft deze dataset, ik zag in het artikel het volgende:

  1. Remove any article that was published by more than one national publisher (VK, AD, Trouw, and Het Parool). This gave us a list of unique articles from the largest 4 publishers.
  2. Remove any article from ADR that overlapped with the articles from national publishers.
  3. Remove any article that was published by more than one regional publisher (ADR).

Willen wij niet juist de artikelen die in meerdere outlets gepubliceerd zijn? Ik weet niet wat zij beschouwen onder identieke artikelen...? Ik kan ook nergens terugvinden hoe ze dit hebben gedaan.

damian0604 commented 4 years ago

Goed punt, dat maakt het dan misschien minder geschikt, helaas. In ieder geval voor de RQs in ons huidig paper. Maar misschien alsnog interessant om dit een keer met hun dataset te doen - dan kunnen we weliswaar niets zeggen over overlap tussen kranten, maar alsnog gerelateerde artikelen vinden (want ik vat dit op als 'we hebben letterlijk identieke artikelen verwijderd')