MrMdj250 / NotebookSearchThesis

Search engine for large collections of Jupyter Notebooks
1 stars 0 forks source link

Voortgang #5

Open MrMdj250 opened 4 years ago

MrMdj250 commented 4 years ago

@maartenmarx Ik heb wat informatie over de data verzameld:

  1. Er zitten 232,785 files in die "-checkpoint" bevatten.
  2. In de afbeelding hieronder is te zien dat "untitled" (de default waarde) het populairste is. Wat er ook in te zien is dat er een aantal Kaggle dataset namen in zitten, bijvoorbeeld boston housing, traffic lights en titanic. Ook standaard algoritmes als SVM, KNN en Softmax staan er vaak in. image
  3. zonder de -checkpoint files: image
  4. Van alle geindexte documenten zijn het grootste deel python met daarna unknown of "". Voor de rest zijn is een procent R en een procent Julia. python2 of 3 is er niet uit te zien hoe ik het geindext heb. image
  5. Van een random subset van de code (zodat het zoekbaar was) zijn de top 5 imports/functies/classes de volgende: image
MrMdj250 commented 4 years ago

Ik heb ook nog een link naar de latex van het project. https://www.overleaf.com/read/xwpvnpvdbbjf

maartenmarx commented 4 years ago

Hi @MrMdj250 ,

Dank voor de update, en de mooie plaatjes. Je ahd ook wel de link naar het (nette) notebook met die plaatjes kunnen geven hier hoor. Dat leest vaak nog sneller.

Wat observaties:

  1. dus zo'n 23% van je files zijn die checkpoint files? Maar wat voor soort files zijn dat? Zijn dat copieen van andere files, die je dus rustig weg kunt doen? Graag duidelijkheid. Dit is ook voor je scriptie van belang.
  2. Heel interresant dat histogram van de namen. Er zijn nog heel wat Untitled varianten zeg!
    • Ik denk dat die untitled wel allemaal anders zullen zijn, maat is dat kwaliteit die je wilt indexeren....., leuk om uit te vogelen ;-) Leuke onderzoeksvraag.
    • Een tweede onderzoeksvraag die meteen bij me opkomt is duplicate detection. Als er 2000 files met de naam boston-housing in zitten. Zijn die echt verschillend, en wat betekent dat eigenlijk, echt verschillend. ES heeft hier wel functies voor volgens mij. Zie bijvoorbeeld https://www.elastic.co/blog/how-to-find-and-remove-duplicate-documents-in-elasticsearch, maar je wilt misschien ook near-duplicate detectie (zoals ook Google news eigenlijk resultaten clustert.).
  3. Ik zou alleen met de Python noetbooks verder gaan.
  4. Leuk die top 5's. daar is nog wel wat meer uit te halen. Die functie f op plek 1, zijn die allemaal hetzelfde? Vast niet. Maar fib-recursive in 3 van de 500 docs? Probeer dit eens op een flink groter deel van de collectie te doen.

Wat is nou jouw AI kant van de zaak?

Ja, daar hadden we het toch over?

In ieder geval is het kijken naar de kwaliteit van de data, en de duplicaten heel nuttig.

Dit soort exploratory data anslysis leidt vaak tot leuke vervolgvragen. Dus ga er mee door, en doe het goed, en speel ermee alsof je een detective/onderzoeksjournalist bent.

maartenmarx commented 4 years ago

@MrMdj250

Over het scriptie pdf document

Die AI kant komt dan echt wel. Dat borrelt vanzelf op. Maar leg nu eerst je fundament maar eens goed neer! Je hebt gace dingen geprogrammeerd. Nu wil je de vruchten plukken. Je cijfer wordt alleen bepaald op basis van die scriptie! Succes!

MrMdj250 commented 4 years ago

@maartenmarx

Niews:

Ik heb port forwarding op mijn router gedaan, dus als ik de Django server aan heb staan: typ: 86.84.100.131:8000 in een browser. Het moet nog wat meer op google lijken maar dit voorbeeld zoekt al op de titels en talen, je kunt er maximaal 20 resultaten uit krijgen: image

Reactie op eerste reactie:

  1. Oh had ik alleen in het verslag gezet (verslag is inderdaad nog heel slordig) De checkpoint files zijn echt kopieën van de normale files, de cellen etc. staan daar ook in.
  2. Ja mijn hypothese daarvoor is dat het voor snelle code stukjes gebruikt wordt en dat mensen het bestand dan geen naam geven ofzoiets. Die kaggle datasets zijn idd misschien github forks. En duplicates die misschien wel andere namen hebben, maar nog hetzelfde vertellen zoals in het plaatje hierboven zou ook kunnen.
  3. Ik kan die filteren voor de search als het goed is.
  4. Dat ging alleen over de namen, de functionaliteit nam dat niet mee, ik probeer dat met 10000 (maximum van es voor 1 query) te doen.
  5. Voor het AI deel: leren van gewichten om te bepalen welke indices meer mee moeten wegen, dus bepalen of het een code of markdown vraag is. Dit is een ding waar ik aan dacht in ieder geval.

    Over het verslag:

  6. Oh dat voorblad template kwam van canvas. Uw naam moet daar komen te staan. Is "Prof. dr. M.J. Marx" correct?
  7. Die punten komen er zeker nog in.
maartenmarx commented 4 years ago

He, gaaf, hij werkt ook heel snel! Ik deed als query “function” en de eerste hit is heel erg goed!

Ga zo door joh!

Met vriendelijke groeten,

Maarten Marx


Maarten Marx maartenmarx@uva.nl www.maartenmarx.nl ILPS, Informatics Institute, Universiteit van Amsterdam Tel: +31 06 40016120 New office location: https://ilps.science.uva.nl/ilps-has-moved/

On May 19, 2020, at 16:59 PM, Michael de Jong notifications@github.com wrote:

86.84.100.131:8000