MrMdj250 / NotebookSearchThesis

Search engine for large collections of Jupyter Notebooks
1 stars 0 forks source link

Project Plan #1

Open MrMdj250 opened 4 years ago

MrMdj250 commented 4 years ago

data: https://library.ucsd.edu/dc/collection/bb6931851t

articles: https://dl.acm.org/doi/pdf/10.1145/3336191.3371830 https://dl.acm.org/doi/pdf/10.1145/1165774.1165776 https://nottingham-repository.worktribe.com/preview/930742/dls_soco2018.pdf https://arxiv.org/pdf/1705.01509.pdf https://dl.acm.org/doi/pdf/10.1145/3336191.3371830

maartenmarx commented 4 years ago

Hi @MrMdj250 , hierbij mijn commentaar op je project plan.

Veel succes en ik zie graag een issue met je voortgang tegemoet, dat puntje voor punyje mijn "to do zsm" bespreekt. Daarna kunnen we weer eens zoomen.

review scriptie ontwerp Michael de Jong

Mooi begin van een ontwerp, maar ik zou het liever allemaal een stuk concreter hebben. Ik denk dat dat je zal helpen, in alle delen van dit onderzoek.

Tip

Maak je onderzoeksvragen helder. En zorg dat dat alles wat je doet direct verbonden kan worden aan het beantwoorden van een (deel) onderzoeksvraag. Als je iets doet wat niet bij een vraag past, maak je er een (deel)vraag bij, of stop je met dat te doen.

Losse puntjes

  1. Graag voortan altijd regelnummers
  2. Dit is geen begrijpelijke zin/vraag: Is there a significant difference to make a search engine aware of the notebook format?
  3. het is lastig te achterhalen wat exact je onderzeoksvraag is. Kan je dat heel duidelijk aangeven, ook met deelvragen?
    1. Er zijn allerlei deelvragen te bedenken. Hoe concreter die zijn, hoe concreter je ook je plan van aanpak kunt maken. Dat is nu nog best abstract. Het is ook fijn om steeds terug te kunne verwijzen naar je RQs in je plan.
  4. Ben je zeker dat je die ES Rank wilt en kunt gebruiken? De referentie is niet top in IR. Daarnaast zie ik nog geen training materiaal.
    1. Ten derde, waarom zou je dit doen? Wat draagt het bij aan het beantwoorden van je onderzoeksvraag?
    2. Waarom niet gewoon de standaard ranker die in elasticsearch zit. Daar kan je nog heel veel mee rommelen. Zeker als je verschillende indexes hebt.
  5. Wat ik mis is het gebruik van literatuur over "IR over computer code" (misschien zelfs wel in het bijzonder Python-code). Je wilt de verschillende cellen toch op een andere manier gaan analyseren (tokenization, stopwoord removal, al dan niet lower casen, etc, etc).
    1. Ook denk ik dat je commentaar uit de code wilt parsen, bijvoorbeeld, en misschien modules/imports, en functie namen uit modules, etc, etc.

To do zsm

  1. Haal al die data van Rule op.
  2. Kijk in de code van die Jenny of er bruikbare parsers inzitten.
  3. Maak een ES index van alleen de markdown cellen met de standaard text processing van ES.
    1. Doe eens wat tellingen.
      1. Hoeveel woorden per document?
      2. Hoeveel MD cellen per document?
    2. Geef die intelligent weer, en trek conclusies
  4. Kijk eens naar commentaar in code, en indexeer dat ook, en heraahl wat je in de vorige stap deed.
  5. Kan je hiermee een vraag als "Hoe code-oriented or markdown oriented is the collection of notebooks?"
    1. Als er vrijwel geen markdown istaat ben je eigenlijk snel klaar toch? Dan indexeer je alles gewoon met een code-parser. Het is dus echt van belang dit "voorzonderzoek" te doen.
    2. En het kan allemaal rechtstreek je scriptie in, met mooie grafiekjes etc.
MrMdj250 commented 4 years ago

Bedankt voor de goede feedback. Hieronder wil ik graag de losse punten behandelen en in een nieuwe issue het zsm deel.

  1. Zal ik doen, kan ook in latex zag ik.
  2. Is there a significant difference to make a search engine aware of the notebook format? Was de onderzoeksvraag die ik niet goed verwoord had. Het moest gaan om het verschil met een index met ranker die rekening houd met het format en een die dat niet doet. Misschien: Should a search engine make use of the Jupyter notebook format?
  3. mogelijke deelvragen:
    1. How is the Jupyter notebook structured?
    2. What patterns can be found in the Rule data? (vooronderzoek)
    3. What should be indexed in elasticsearch?
    4. How does a combined index compare to seperate indexes.
    5. What evaluation metrics should be used?
    6. What approach gains higher scores on the metrics?
    7. How does the SemanticSnakeCharmer compare
  4. Ik zie maar af van ES-rank. Training materiaal was van de problemen inderdaad, want dat is moeilijk zelf te produceren. Ik gebruik dan vanaf nu de ingebouwde ranker van elasticsearch.
  5. De code cellen moeten inderdaad op een andere manier geanalyseerd worden, Ik had er nog geen goede literatuur voor gevonden. Ik heb de comments al eruit bijvoorbeeld. In python en R beginnen die namelijk met #