Pipeline gemaakt voor logres waarbij het model netjes met behulp van de validation set gecorrigeerd wordt;
Alle embeddings verzameld behalve één;
Max, min en average pooling resultaten binnen (zie bijlage);
Functie opgezet voor padding, maar hier heb ik nog wat problemen mee:
Sommige embeddings zijn heel erg groot (totale vectorlengte van een paar 100 duizend), waardoor mijn geheugen het niet aankan. Ook al gebruik ik mediaan + 1x de std i.p.v. 2x.
Het gebruiken van de mediaan zoals aangegeven plus één standaarddeviatie geeft altijd netjes rond de 80% van de lengte, maar ik heb geen literatuur kunnen vinden die deze techniek onderbouwt. Hoe zou ik dit het beste kunnen verdedigen in mijn scriptie?
Voorstel voor volgende week:
Volledig afmaken van de bovenstaande punten;
RQ2 (How well do neural network architecture classify fake news compared to non-neural classification algorithms?) afmaken.
Wat ik deze week af heb gekregen:
Voorstel voor volgende week: