Agenda (16 mei) - Githubissues

MeMartijn / FakeNewsDetection

Fake news detection using SOTA word embedding techniques in Python

1 stars 0 forks source link

Wat ik deze week af heb gekregen:

Pipeline gemaakt voor logres waarbij het model netjes met behulp van de validation set gecorrigeerd wordt;
Alle embeddings verzameld behalve één;
Max, min en average pooling resultaten binnen (zie bijlage);
Functie opgezet voor padding, maar hier heb ik nog wat problemen mee:
- Sommige embeddings zijn heel erg groot (totale vectorlengte van een paar 100 duizend), waardoor mijn geheugen het niet aankan. Ook al gebruik ik mediaan + 1x de std i.p.v. 2x.
- Het gebruiken van de mediaan zoals aangegeven plus één standaarddeviatie geeft altijd netjes rond de 80% van de lengte, maar ik heb geen literatuur kunnen vinden die deze techniek onderbouwt. Hoe zou ik dit het beste kunnen verdedigen in mijn scriptie?

Volledig afmaken van de bovenstaande punten;
RQ2 (How well do neural network architecture classify fake news compared to non-neural classification algorithms?) afmaken.

Alexandra Arkut werkt ook met de Liar. Je hebt Urja nu verslagen, maar Alexandra is ook neuraal. Die doet CNNs, net als die Liar-man (Wang).

klassiek plus gepoolde woord-embeddings heb je nu gedaan.
Nu dan MLP of iets anders neuraals out of the box met gepoolde woord embeddings

MS wil gaan kijken wat het beste werkt binnen de neurale classificatie algs.....
Wat ga je varieren?
- uiteindelijke lengte van je "doc-vector"
- afkap moment (AA doet volgens mij 100)
- Waarmee te padden?
  1. Keras default
  2. iets anders wat je goed lijkt
- vector lengte per woord
  - begin klein (wat lekker snel draait)
    - heel klein (50D), maar dan wel de 3 modellen
  - kijk wat vergroten doet