AsherIDE / EU-scale-search

They work for you at EU scale
https://github.com/AsherIDE/EU-scale-search/tree/main/Personal-Documents
0 stars 0 forks source link

Progress zoekmachine IV #7

Closed AsherIDE closed 11 months ago

AsherIDE commented 1 year ago

Hi @maartenmarx ,

De vooruitgang van deze week is als volgt:

  1. Namen en zinnen met speciale tekens uit UTF-8 kunnen nu worden gevonden door middel van ASCII tekst en vice versa.
  2. Geen van de landen geeft op dit moment een error met de data die in elastic wordt opgeslagen op dit moment. Dit is gedaan door alle data te parsen, niet elke dataset is geupload in elastic om tijd te besparen voor nu. De volgende features zitten nu in elastic:
    • prs: naam persoon
    • prs_s: naam persoon ASCII format
    • pty: politieke partij persoon (NIEUW)
    • seg: segment zin uit xml file
    • pos: position, bijvoorbeeld chair, regular of president (NIEUW)
    • cty: country, bijvoorbeeld NL, BE, FR (NIEUW)
    • cnt: content wat er gezegd wordt
    • cnt_s: content in ASCII (NIEUW)
  3. De zoek testfunctie van elasticsearch is iets uitgebreid zodat ik beter kon checken of punt 1. goed werkt
  4. Er is een functie toegevoegd die .csv bestanden met 2 columns (sentence_id, text) ophalen om later van 9 landen een vertaling te kunnen integreren bij de tekst. De verwachting was dat het al zou werken, maar wij hadden als groep over het hoofd gezien dat de segmenten anders worden genummerd dan de segmenten uit de xml file. Wanneer deze kloppen dan zou dit direct geintegreerd kunnen worden.
  5. Ook doet het team momenteel een poging om engelse titels te genereren voor teksten om de gebruikservaring te verbeteren, daar hopelijk volgende week meer over.

Nog wat mooie uitdagingen voor komende week:

  1. Ik heb tot nu toe heel veel tijd besteed aan elastic search, maar ik wil komende week ook vast beginnen met scriptie plan/ onderzoeksopzet.
  2. Het assortiment aan features moet nog worden uitgebreid.
  3. Cyrillisch naar ASCII moet nog iets mooier worden gefilterd indien mogelijk, dus ik moet daarbij nog even mijn opties overwegen.
  4. De zoek testruimte moet een functie worden gemaakt, zodat er nog op een normale manier kan worden gezocht met deze hoeveelheid features, die alleen nog maar toenemen.
  5. Het team houdt zich komende week bezig het compatible maken van de segmenten voor de vertaalde zinnen, ook wordt er gekeken naar het genereren van titels voor bestanden en als laatst zou er georienteerd worden op online hosting van de elastic search instance.

Nog wat extra info:

Het desbetreffende notebook, waar de bovenstaande punten bij horen:

Groet,

Asher

maartenmarx commented 1 year ago

Hai @AsherIDE , hartelijk dank. Jullie zijn echt lekker bezig zeg! Geweldig.

  1. Over die niet kloppende id's in de vertalingen. Kunnen jullie dat oplossen? Of klopt het gewoon echt niet? Als het laatste, kan je het probleem helder in het Engels beschrijven met een goed voorbeeld en naar Tuva mailen met CC naar mij? Dit is heel erg nuttig voor hen, en ook voor jullie als het opgelost wordt.

succes!! maarten