MrMdj250 / NotebookSearchThesis

Search engine for large collections of Jupyter Notebooks
1 stars 0 forks source link

Voortgang laatste week #8

Open MrMdj250 opened 4 years ago

MrMdj250 commented 4 years ago

@maartenmarx Het is de laatste week (Vrijdag 23:59 deadline)

  1. De classifier heb ik met 5 fold cross validation gedaan en de hyperparameters getuned met gridsearch, daarbij werd de accuracy op de test set niet veel beter, namelijk 0.1% beter.
  2. Ik heb daarna een hoop geschreven in de latex, hoofdstuk 3, 4 en 8.
  3. Het titelblad etc moest ook aangepast worden vanuit de opleiding
  4. Ik heb ook queries verzameld in Figure 4.5, dus dan moet daarmee vergeleken worden.
maartenmarx commented 4 years ago

@MrMdj250 , hier mijn commentaar. Zet je nog even schrap, michael, ook al is het zo'n heerlijk weer.

Review versie 23 juni Michael

Algemeen

puntjes

  1. gave voorkant joh
  2. Ik ben geen Prof hoor ;-)
  3. Intro
    1. Goed maar wel erg karig.
    2. l14, waarom geef je geen voorbeeld van een query die mis gaat als de zoekmachine gewoon alle tekst in notebooks op 1 hoop gooit? Dat maakt het levendig en introduceert en motiveert jouw probleem.
    3. Ik zou de 2e paragraag over de SSC naar achteren plaatsen.
    4. Maak je vragen wat netter en in een genummerde lijst of zo.
    5. Ik zou je hoofdvraag wat minder "zwaar" formuleren. "Is searching for a Jupyter notebook easier when the search engine is aware of the different cell types?" zoiets?
    6. Deelvragen
      1. l28=goed, l29 voegt daar niks aan toe, dus weg. l30, nou met lineaire interpolatie. Klaar beantwoord. Dus dit is geen goede vraag.... l31: Hoe kunnen we snal (bijna)-duplicates opsporen en hoeveel zijn er eigenlijk? Wat zijn valkuieln hier? (bijv dat er heel veel ntebooks met dezelfde naam zijn, maar niet met deze;fde inhoud
      2. l33 kan ook weg.
      3. l32: "Does removing duplicates change the outcomes of the research by Rule?"
  4. Theoretical foundation
    1. Ja, hier verwacht ik wel wat meer, en wat gestructureerder. probeer na te denken over je vragen, en per vraag te bepalen wat er al over bekend is.
    2. Ik zou beginnen met het onderzoek van Rule, en het vervolg van Jenna.
    3. Ik zou wat dingen over zoekmachines en zoekmachines voor software opnemen.
      1. En ook hoe je signalen uit verschillende indexen optimaal kunt combineren.
    4. Die SCC kan je hier ook prima noemen.
      • 3.1
      • Maak hier een tabelletje van, met ruwe aantallen en percentages per oddity.
      • 3.2 Leuk! Maar zet ze in 1 grafiekje (met pandas heel makkelijk), en je ziet meteen de verschillen en maak er percentages van
      • Verder zou ik steeds een rank correlation uitrekenen naast het tonen van de top 10. Dat geeft net wat meer houvast.
      • probeer het vergelijken in je plaatjes makkelijker te maken!
      • Methods
      • Je kan best trots zijn op die zoekmachine, dus schrijf gewoon onderkoeld op wat een klus het was, en geef wat meer getalletjes, zoals index sizes, en de tijden die het koste en op wat voor hardware je het draait, etc.
      • Ik mis de core van het ES deel, hoe bepaal je de ranking van de hits op een multi woord query. Zorg dat je hier wat formules gebruikt en ook dat je aangeeft dat hier de "secret sauce" zit, hier ga je de winst voelen van de verschillende indexen.
      • Dit moet tussen de indexer en de SERP. Geef hier de default instelling, en zeg dat je die in 4.2 gaat optimaliseren door middel van machin elearning.
      • 4.2 Goed, maar leg dit echt wat beter uit. Je springt er meteen midden in.
      • 4.2.1 krijgen we de resultaten ook te zien? Laat ook wat false positives zien Haal dat van 5.1 hierheen.
      • tabel 4.5 heel goede queres en behoeftes. Maar die tabel is ultra klein! Gewoon lettertype graag.
MrMdj250 commented 4 years ago

@maartenmarx Bedankt voor de review en voor de begeleiding tijdens dit project. Ik heb nog veel van de review in het verslag kunnen verwerken. Ik kon de top 10 plots niet op tijd meer goed maken dus die zijn minder duidelijk.