AsherIDE / EU-scale-search

They work for you at EU scale
https://github.com/AsherIDE/EU-scale-search/tree/main/Personal-Documents
0 stars 0 forks source link

Progress zoekmachine II #4

Closed AsherIDE closed 11 months ago

AsherIDE commented 1 year ago

Hi @maartenmarx ,

Vooruitgang van deze week is als volgt:

  1. Het is mij gelukt om Docker werkend te krijgen met zowel Elasticsearch als Kibana.
    • Kibana wilde ik toch graag werkend hebben voor mooie statistieken voor later tijdens het schrijven van mijn scriptie zelf
  2. Vervolgens heb ik een simpele zoekmachine gebouwd in een notebook.
    • Link: https://github.com/AsherIDE/EU-scale-search/blob/main/Notebooks/basic_search.ipynb
    • Voor nu heb ik het heel simpel gehouden door maar 1 xml te verwerken, aangezien het maar een simpele loop is vanaf dit punt om bijvoorbeeld een heel land te uploaden.
    • De verwerking van de data integreert ook al de namen van personen uit het overzichtdocument van een land, waarin peroonsgegevens en partijinfo staat, dit aangezien er dan ook al een functie in plaats is om dat bestand later makkelijk geheel te integreren.
  3. Iemand uit onze groep had al een functie gemaakt voor translation, echter werkt deze via Google Translate API en wij wisten nog niet dat zij geld rekenen als je over een bepaald treshold heen gaat. Wij overwegen nu onze opties.

Nog wat mooie uitdagingen voor komende week:

  1. Tijdens het experimenteren kwam ik erachter dat speciale tekens nog niet goed worden verwerkt, dus nu willen wij als groep gaan kijken of wij een mooie functie kunnen schrijven die dergelijke strings encode
  2. Verder staat op het menu om komende week de zoekmachine verder uit te breiden
  3. Opties overwegen of het schrijven van een translation functie die een andere API gebruiker misschien handiger is.

Verder vroeg ik mij nog af of het heel nuttig zou zijn om nog een onderzoeksvoorstel te schrijven, aangezien wij in principe al ons doel voor ons hebben en wij momenteel meer in het ontwerpproces zitten. Naar mijn idee is het dan nuttiger om die tijd te besteden aan een front end layout bijvoorbeeld.

Al met al verloopt alles naar mijn idee tot nu toe prima!

Groet,

Asher

maartenmarx commented 1 year ago

Dank @AsherIDE voor je heldere update. Ga inderdaad lekker zo door zou ik zeggen!

  1. Oefen zeker ook eens met het indexeren van heel veel data. Dat moet in batch, anders duurt het heel lang.
  2. er is op parlamint ook al machine vertaalde data beschikbaar. Probeer dat ook te vinden.
  3. Kan je je zoekmachine niet ook ergens op het web op een server deployen? heroku misschien. Of google colab? Dat is wel leuk om aan anderen te laten zien.
  4. Probeer ook alvast een "niche" voor jezelf af te bakenen voor een scriptie en claim die in de groep.

succes! maarten