AsherIDE / EU-scale-search

They work for you at EU scale
https://github.com/AsherIDE/EU-scale-search/tree/main/Personal-Documents
0 stars 0 forks source link

Progress report XI #17

Closed AsherIDE closed 11 months ago

AsherIDE commented 1 year ago

Hi @maartenmarx ,

De vooruitgang van deze week is als volgt:

Nog wat mooie uitdagingen voor komende week:

Alvast een fijn weekend,

Asher

maartenmarx commented 1 year ago

Hi @AsherIDE , dank weer. Klinkty allemaal goed!

  1. Ja, ik zou dus per ngram in ES het hele 2D dataframe opslaan dat je zo aan het ploytje kunt geven. Dus eigenlijk de 6 spagettilijnen. Dan is het razendsnel.
  2. Ik zou je deelvragen in je resultaten sectiebeantwoorden, ne je hoofdvraag dan in de conclusie.
  3. Ikzou het in het Engels doen, als dat niet te lastig voor je is. Dan maken we er een mooi stukje van voor Daria.

Meer landen

Wat heb je nodig?

Succes

maarten

AsherIDE commented 1 year ago

Hi @maartenmarx ,

  1. Momenteel gebruik ik elastic om alle resultaten te groupen op sum, wat resultaten geeft over de gehele dataset in onder een halve seconde. "The" unigram, die 18.231.757 keer voorkomt in de 6 landen duurde 0.37 seconden om te laden als plot.
  2. Is goed dank u voor het advies.
  3. Prima, dat is geen probleem.

Meer landen

Wat ik nodig heb

Binnenkort weet ik meer over de exacte getallen,

Asher

maartenmarx commented 1 year ago

Bedankt @AsherIDE , duidelijk. De HD ruimte is geen probleem. 8Gb RAMis wel best veel (want we hebben maar 16). Kan je eens kijken wat er gebeurt als je dat flink naar beneden brengt, en wat nodig is voor acceptabel performace? Met zo'n docker kan het natuurlijkheelmakkelijk.

groet maarten