AsherIDE / EU-scale-search

They work for you at EU scale
https://github.com/AsherIDE/EU-scale-search/tree/main/Personal-Documents
0 stars 0 forks source link

Progress zoekmachine V #8

Closed AsherIDE closed 11 months ago

AsherIDE commented 1 year ago

Hi @maartenmarx ,

De vooruitgang van deze week is als volgt:

  1. De features year, month, day en gender zijn toegevoegd aan de search.
  2. De veel voorkomende " \' " in cyrillische teksten wordt nu gereplaced met "". Ik had gehoopt dat misschien een ander library beter was in het omzetten van cyrillisch naar ASCII, maar dat was vergelijkbaar met UNIDECODE wat ik al gebruikte voor elk ander land. Ik heb het dus daarbij gelaten.
  3. Er is nu een zoekfunctie die een dict aanneemt met als feature de key en als value wat er gezocht moet worden. Deze functie lost het probleem op dat ik eerst had, waarbij een lege input (omdat ik niet in een bepaalde feature wilde zoeken) werd meegenomen in de search. Er werd dan gezocht naar lege inputs die er niet waren.
  4. Ik heb nog samen met Noah een functie gemaakt die alle translated segments weer goed zet. Wij kwamen er hierbij ook achter dat sommige woorden missen uit de originele onvertaalde files, die wel staan in de XML files.
  5. Als laatste heb ik een klein begin gemaakt aan de onderzoeksopzet, echter was dit minder dan verwacht omdat het samenvoegen van segmenten er tussen kwam.

Nog wat mooie uitdagingen voor komende week:

  1. Mijn onderzoeksopzet gaat afgemaakt worden, zodat ik het netjes voor de deadline in kan leveren.
  2. Als ik tijd over heb, dan wil ik partijen consistenter uit de XML filteren. Momenteel staat niet bij elk persoon de goede partij door de varierende documentaties van affiliation in het overkoepelende XML bestand per land.

Het notebook, waar van de vooruitgangen 1 tm 3 staan:

Tot vanmiddag,

Asher