Open damian0604 opened 5 years ago
Ja, ik ben het er wel mee eens dat het een goed idee is om een openbare dataset te gebruiken zodat iedereen het voorbeeld na kan doen voordat mensen kunnen het toepassen op hun eigen data, aangezien het een methodologisch paper is.
Ik denk dat als wij het zouden gebruiken om inhoudelijke conclusies te trekken, we wel INCA data zouden kunnen gebruiken en dus kranten van verschillende uitgevers (en niet alleen De Persgroep).
Wat betreft deze dataset, ik zag in het artikel het volgende:
Willen wij niet juist de artikelen die in meerdere outlets gepubliceerd zijn? Ik weet niet wat zij beschouwen onder identieke artikelen...? Ik kan ook nergens terugvinden hoe ze dit hebben gedaan.
Goed punt, dat maakt het dan misschien minder geschikt, helaas. In ieder geval voor de RQs in ons huidig paper. Maar misschien alsnog interessant om dit een keer met hun dataset te doen - dan kunnen we weliswaar niets zeggen over overlap tussen kranten, maar alsnog gerelateerde artikelen vinden (want ik vat dit op als 'we hebben letterlijk identieke artikelen verwijderd')
bijvoorbeeld
@article{Yeh, archivePrefix = {arXiv}, arxivId = {arXiv:1908.02322v1}, author = {Yeh, Chia-lun and Loni, Babak and Reinhardt, Henrike and Schuth, Anne}, eprint = {arXiv:1908.02322v1}, file = {:home/damian/.local/share/data/Mendeley Ltd./Mendeley Desktop/Downloaded/Yeh et al. - Unknown - DpgMedia2019 A Dutch News Dataset for Partisanship Detection.pdf:pdf}, title = {{DpgMedia2019: A Dutch News Dataset for Partisanship Detection}} }