MeMartijn / FakeNewsDetection

Fake news detection using SOTA word embedding techniques in Python
1 stars 0 forks source link

Publicatie #16

Closed maartenmarx closed 5 years ago

maartenmarx commented 5 years ago

Hi @MeMartijn

Ik zit wat rond te neuzen voor publicatie en kom op icwsm 2020 (deadline in septmeber), of in journals als jasist of ipm. In die laatste staat ook een mooi overview: https://doi.org/10.1016/j.ipm.2019.03.004 (maar best saai).

wat nog te doen

  1. Jouw idee van een analyse met word2vec als sterke baseline zou een mooie toevoeging zijn, helemaal als je daarin ziet dat ie wel verandert met de "sequence length". Dit past mooi in jouw gaafste plaatjes.
  2. Waarom doet GPT het zo anders dan de rest? Zowel lager, als meer een verbetering met langere sequence length. Kan je het ook met die opvolger GPT2 proberen? Voor zover ik snel kon zien was het enige verschil dat die op webpaginas getrained is.

Wat denk je, is dat haalbaar op korte termijn? Vooral de word2vec baseline is een leuke en waardevolle toevoeging volgen smij.

maartenmarx commented 5 years ago

Dit artikel stond vorig jaar in icwsm, en is een stuk ouderwetser dan dat van jou: https://aaai.org/ojs/index.php/ICWSM/article/view/3215/3083 Het doet het dan weer wel op heel veel datasets....

MeMartijn commented 5 years ago

Hi Maarten, @MeMartijn

Ik ga mijn best doen! Word2vec zal sowieso wel goed te doen zijn, GPT-2 ga ik in ieder geval proberen. Dan kan ik de huidige GPT resultaten vervangen, omdat die een beetje een rare trend laten zien.

Fijn joh! Ik ben benieuwd.

Ik heb net een mailtje binnengekregen dat mijn cijfer is vastgelegd in SIS. Echter, ik zie op Datanose dat er een spelfout is gemaakt in de titel van mijn scriptie. Er staat nu Fake News : Approching Automated Lie Detection using Pre-Trained Word Embeddings. Is dat nog aan te passen? Moet ik daarvoor bij de education desk zijn o.i.d.?

Ja dat gebeurt steeds, en je had het nog best netjes opgeschreven ;-) probeer een reply op dat mailtje. Ik kan hier niet meer bij.

MeMartijn commented 5 years ago

Hi @maartenmarx

Na enige vertraging heb ik hier resultaten bij Fasttext embeddings. Had eerlijk gezegd gehoopt op een iets dramatischere verdeling, misschien probeer ik nog een andere techniek, GloVe bijvoorbeeld.

newplot(2) newplot(3)

Ik ga even proberen om GPT-2, XLNet en XLM toe te voegen aan de resultaten. Je hoort van me 👍.

maartenmarx commented 5 years ago

Hi Martijn,

Dank! Inderdaad niet helemaal wat we verwachten, maar toch goed om toe te voegen volgens mij, want (nog steeds) heel veel gebruikt.

PS Kan je me een CV in PDF form sturen en je cijferlijst? Ik wil je voordragen voor een prijs!

Liefst vandaag nog. Ik ben eigenlijk al op vakantie.

Met vriendelijke groeten,

Maarten Marx


Maarten Marx maartenmarx@uva.nl www.maartenmarx.nl ILPS, Informatics Institute, Universiteit van Amsterdam Tel: +31 06 40016120

On Jul 18, 2019, at 16:32 PM, Martijn notifications@github.com wrote:

Hi @maartenmarx https://github.com/maartenmarx Na enige vertraging heb ik hier resultaten bij Fasttext embeddings. Had eerlijk gezegd gehoopt op een iets dramatischere verdeling, misschien probeer ik nog een andere techniek.

https://user-images.githubusercontent.com/12677308/61465807-16ca3b80-a979-11e9-84ff-05118a313824.png https://user-images.githubusercontent.com/12677308/61465833-26e21b00-a979-11e9-95f8-fd5aa6669ed7.png Ik ga even proberen om GPT-2, XLNet en XLM toe te voegen aan de resultaten. Je hoort van me 👍.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/MeMartijn/FakeNewsDetection/issues/16?email_source=notifications&email_token=AA4ZK4BLBCQQDP6MJOCC5PLQAB5JFA5CNFSM4H5GVU4KYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOD2IVP4Q#issuecomment-512841714, or mute the thread https://github.com/notifications/unsubscribe-auth/AA4ZK4AGLCQHRGHPF5IIJXLQAB5JFANCNFSM4H5GVU4A.

MeMartijn commented 5 years ago

Hi @maartenmarx

Ik heb je de pdfs gemaild. Fijne vakantie nog!

maartenmarx commented 5 years ago

Hi Martijn,

Ik ben weer boven water.

1) Is het aanvragen van je diploma nu gelukt? Ik dacht van wel. Maar kan eigenlijk niks goed zien op datanose. 2) Volgens mij hebben we met jouw scriptie een mooi verhaal voor dat ICWSM, waar nu ook een website van is (https://www.icwsm.org/2020/index.html#fullpapers https://www.icwsm.org/2020/index.html#fullpapers). De deadline is 15 september. Dus dat is best snel.

Je hebt nu ook de fasttext (= toch eigenlijk word2vec) scores, dus ik denk dat we die andere modellen maar moeten laten voor wat het is.

Wat denk jij, heb je nog tijd en zin de komende weken om nog een en ander te doen? Ik wel! Het is nu een kwestie van wat schaven en netjes maken geloof ik.

Bel me anders even als het je uitkomt.

groetjes maarten


Maarten Marx maartenmarx@uva.nl www.maartenmarx.nl ILPS, Informatics Institute, Universiteit van Amsterdam Tel: +31 06 40016120

On Jul 25, 2019, at 22:28 PM, Martijn notifications@github.com wrote:

Hi @maartenmarx https://github.com/maartenmarx ,

Ik ben druk bezig met de modellen, maar er zitten toch meer haken en ogen aan dan gedacht. Ik ben inmiddels wel bezig met het aanvragen van mijn diploma, maar dit lukt nog niet omdat mijn scriptie blijkbaar nog niet doorgekomen is in Datanose. Als ik het zelf wil uploaden, moet ik weer door een plagiaatcheck heen, weet jij toevallig of dat de bedoeling is? Bij Ella is hij wel meteen doorgekomen, en de scriptiecoördinator reageert niet meer op mailtjes...

Fijne vakantie!

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/MeMartijn/FakeNewsDetection/issues/16?email_source=notifications&email_token=AA4ZK4C3WQBBNM5VDRWSMKLQBIEHTA5CNFSM4H5GVU4KYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOD22VXUQ#issuecomment-515202002, or mute the thread https://github.com/notifications/unsubscribe-auth/AA4ZK4BIKDK3FPHGJJADKY3QBIEHTANCNFSM4H5GVU4A.