AsherIDE / EU-scale-search

They work for you at EU scale
https://github.com/AsherIDE/EU-scale-search/tree/main/Personal-Documents
0 stars 0 forks source link

Progress zoekmachine III #5

Closed AsherIDE closed 11 months ago

AsherIDE commented 1 year ago

Hi @maartenmarx ,

Vooruitgang van deze week is als volgt:

  1. Problemen met speciale tekens zijn verholpen, ik lees de documenten nu met ETF-8 en voor nu sla ik namen van personen op in elastic search op 2 manieren: Selçuk Öztürk en Selcuk Ozturk. Ofwel ik sla ook een naam zonder speciale tekens op om het zoeken op namen later makkelijker te maken.
  2. De zoekmachine zelf is verder uitgebreid, want nu heb ik getest met de volledige dataset van Nederland. Dit werkte nog prima en de functie is er ook voor geschikt om al meerdere landen als input te nemen.
  3. Groepsleden kijken momenteel voornamelijk naar de vertaling en naar of het mogelijk is om mooie titels te genereren voor de teksten.

Nog wat mooie uitdagingen voor komende week:

  1. Voor het simplificeren van namen hoop ik eigenlijk nog een functie te vinden in elasticsearch die speciale tekens negeert, zodat ik een naam niet twee keer op zou hoeven slaan.
  2. Voor andere landen moet ik nog gaan testen of alles goed overgezet wordt naar elastic search, want de BG dataset leek bijvoorbeeld nog errors te geven omdat er None zou staan bij sommige speakers.
  3. Als het lukt om beide bovenstaande punten in volgende week te doen, dan wil ik daarna beginnen aan het uitbreiden van de informatie die per entry wordt opgeslagen.

Het desbetreffende notebook, waar de bovenstaande punten bij horen:

Tot vanmiddag,

Asher