ekapel22 / masterthesis

Master Thesis Information Studies: Data Science
0 stars 0 forks source link

Thesis design oordeel #1

Open maartenmarx opened 5 years ago

maartenmarx commented 5 years ago

Hi Eileen,

Vanaf nu werken we zoveel mogelijk met issues, om zo te proberen alles bij elkaar te houden.

Dus hier mijn oordeel op je thesisdesign. https://github.com/ekapel22/masterthesis/blob/master/Thesis_Design%20-%20Eileen%20Kapel.pdf (hopelijk dezelfde versie al sje me mailde...)

  1. Sectie 2 RQ
    • Goed, helder met een mooie opdeling.
    • SQ2, ik neem aan (en verwacht) dat je bedoelt wat content based oplevert als je het toevoegt bovenop het bestaande systeem
    • SQ4 is mij veel te breed en vaag zo. Dit lijkt me een subvraag van 3 dan. Ik zou die weglaten.
    • Waarschijnlijk ga je nog een nieuwe deelvraag toevoegen in de trant van " welke van de content based rec meth X1, X2, X3, .... doen het het best?
    • Zorg dat je deelvragen je leiden bij je onderzoek en bij de rapportjes die je schrijft. Bij alles wat je doet moet je weten bij welke deelvraag dat werk hoort.
  2. Sectie 3 Lit
    • Prima, je gaat de goede kant op.
    • 3.1 Dat onderzoek [3] is wel erg oud hoor. En hun methode 1 is eigenlijk natuurlijk een baseline. Zelfs methode 2 is wel heel erg simpel. Ga eens door de laatste jaren van RecSys conferentie en probeer een overzicht te vinden/maken van de hybride aanpakken. CBCF lijkt me voor jou ook een baseline (al hoewel ik nog niet direct zie hoe je die content based pseudo user ratings maakt (waarschijnlijk voor iedereen hetzelfde...?))
    • 3.2 Hier verwacht ik eigenlijk een opsomming van aanpakken voor vergelijkbare domeinen, niet alleen netflix, maar ook spotify lijkt me. Ik zou hier eerst de eigenschappen van het NPO domein opnoemen en bepalen, en dan op zoek gaan naar vergelijkbare domeinen. Die eigenschappen zijn dus echt niet alleen video, maar ook dingen als entertainment, gratis, weet ik veel.
    • Dus focus op wat voor jou van belang is! En zorg dat je een goed en up-to-date overzicht hebt van de huidige stand van zaken.
  3. Sec 4 Methodologie
    • De intro gaat over heel veel, maar veel is geen methodes. Let op, waar je welke dingen plaatst!
    • Ik had hier graag een "baseline" methode gezien, maar je zegt daar niks over. Ik dacht bijvoorbeeld dat je een "query" zou kunnen maken van een gebruikers geschiedenis (op basis van de metadat van wat ie al gezien heeft) en daarmee de ongeziene items gaat ranken (net als in een zoekmachine). Is dit een van je baselines? Zo ja, dan hoort hier wat heldere informatie over hoe je dit gaat doen.
    • De data zijn redelijk beschreven, maar dit kan veel beter. Actiepunt 1: EDA, vooral ook op de missing values. Ook graag kde's van de lengtes in aantallen woorden. Dit lijkt me erg scheeft verdeeld, en ik ben bang dat de mediaan nog veel lager ligt dan het gemiddelde...
    • 4.2 Ook hier graag zo snel mogelijk de precieze formules. Dit kan je op heel veel manieren doen. Zoek van te voren uit wat mogelijk is, en of je met die meting genoeg statistische kracht hebt.
  4. Risks goed. Maar ik zie de ondertitels graag het liefst vanaf het begin erbij.
  5. Planning klinkt goed

Actie punten

  1. KDE op data (en liefst ook subtitels). Uitkomst minstens 5 paginas voor in ej scriptie met mooie tabelletjes en grafiekjes (gebruik seaborn)
  2. Oderzeok de ondertitels en wat je ermee kan.
  3. Uitgebreid modern lit review, vooral ook op RECSys conferentie.
maartenmarx commented 5 years ago

Je design is dus goedgekeurd ;-) Succes bij het eerste begin!