AsherIDE / EU-scale-search

They work for you at EU scale
https://github.com/AsherIDE/EU-scale-search/tree/main/Personal-Documents
0 stars 0 forks source link

Progress report X #16

Closed AsherIDE closed 11 months ago

AsherIDE commented 1 year ago

Hi @maartenmarx ,

De vooruitgang van deze week is als volgt:

  1. Talen worden nu op een snelle manier toegevoegd aan Elasticsearch.
  2. Ik heb al veel gedaan aan de Ngram indexing, maar ik ben hier zeker nog niet tevreden over omdat het nog niet snel genoeg wordt samengevoegd. Voor nu kan de code alle 1-5 grams pakken en dan worden deze samengevoegd op datum, om vervolgens in een CSV opgeslagen te worden. De bijbehorende file hiervoor:

Nog wat mooie uitdagingen voor komende week:

  1. Voor nu heb ik twee verschillende dingen geprobeerd om ngrams samen te voegen van verschillende files, echter heb ik nog geen efficiente manier gevonden. Het zou natuurlijk zo kunnen zijn dat het niet sneller kan, maar dat zou ik mij niet kunnen voorstellen. Eigenlijk zoek ik gewoon nog een import die goed twee countvectorizers van verschillende groottes samen kan voegen. Mijn beste functie tot nu toe is de create_shingle_per_day() functie die in de bovenstaande link te vinden is.
  2. Liefst zou ik ook al deze week werken aan het skelet van mijn scriptie, maar dat zou ik perfect kunnen doen wanneer de ngram indexing code goed is, omdat het dan gewoon op de achtergrond zou kunnen draaien.
  3. Ook ga ik nog verder nadenken over mijn deelvragen en hoe ik die wil gaan beantwoorden.

Alvast een fijn weekend,

Asher

maartenmarx commented 1 year ago

Hi @AsherIDE , zoals altid weer heell mooie vooritgang. Ik doorzie je probleem niet helemaal maar hier mijn gedachten.

  1. Ik zie allemaall for loops. Weg ermee! Lees het vectorizer deel in data science handboek van Jake van der Plas (hfd 2 over numpy), en laat het tot je doordringen.
  2. Kan je niet zoiets doen:
    1. Count vectorizer per land, per jaar. Geeft je dan een joekel van een vector toch? Van lengte het vocabulair.
    2. Bewaar die in variabelen en als numpy arrays.
    3. Nou wil je die per land samenvoegen. Mij lijkt dat np.hstack of vstack.
    4. Want je wilt eigenlijk van een vector naar een 2D ding per land (met dus dimensies jaren en ngrammen).
    5. Nou heb je al die 2D arrays voor elk land. Nu wil je er een 3D ding van maken.
    6. Ik denk ook weer via hstack of vtack
  3. Ja, ik zie ook wel dat het probleem kan zijn dat je niet altijd het zelfde vocabulair(=alle unieke ngrams) hebt. Dat is effe rottig, want dan gaat mijn verhaaltje niet op.
    • Ik bedenk maar wat als simpele ziel: waarom maak je niet een document met de union van alle vocabulairs uit alle landen en jaren, en voegt dat toe aan elk jaar/land paar? Dan tel je altijd elke ngarm overal, en zouden dus de vectoeren gelijk moeten zijn.
  4. Snappie? In ieder geval voor 1 taal (engels) moet dit idee toch werken.
  5. Je moet er dan eerst 1 keer doorheen om het hele vocabulair te pakken, en dan nog een keer.
  6. Mar het aan elkaar plakken lijkt me echt heel snel te kunnen, als je geheugen groot genoeg is. En anders moet je het in stukken doen.

Leuk!! succes!

groet maarten