AsherIDE / EU-scale-search

They work for you at EU scale
https://github.com/AsherIDE/EU-scale-search/tree/main/Personal-Documents
0 stars 0 forks source link

Progress zoekmachine VI #11

Closed AsherIDE closed 11 months ago

AsherIDE commented 1 year ago

Hi @maartenmarx ,

De vooruitgang van deze week is als volgt:

  1. Ten eerste wordt de partij waar een persoon bij hoort nu volledig accuraat vastgesteld, waarbij nu ook de afkorting samen met de volledige (met voorkeur engelse) naam van een partij worden weergegeven. Code hiervoor staat in de "extract_info_xml" functie, en een voorbeeld van een partij output is
    • SP (Socialistische Partij) <-- Zo kan er dus ook op de volledige naam en afkorting worden gezocht
  2. Ten tweede wordt nu de goede achternaam gepakt bij mensen die meerdere achternamen hebben. Ook dit is in de "extract_info_xml" functie. Als je bijvoorbeeld "Dora Ilieva" (van de BG set) zoekt dan krijgt je heel iemand anders dan als je "Dora Yankova" zoekt, wat natuurlijk logisch is. Maar in de set staan beiden, dus anders zou een Bulgaar mogelijk niet weten over wie het gaat.
  3. Ten derde heb ik alle info over personen verwerkt in een class, zodat het refereren ernaar wat leesbaarden is in de "extract_debate_xml" functie.
  4. Ten vierde heb ik heel de dataset opnieuw geparst met alle veranderingen, waarbij ik nog een paar kleine uitzonderingen moest toevoegen (en helaas voor Hongarije een specifieke manier om jaartallen te vinden moest hardcoden).
  5. Als laatste heb ik alvast een Flask website invironment opgezet, die ook al verbonden is met mijn docker compose file waarmee Elastic en Kibana al draaien.

Observaties en ideeen voor later:

Nog wat mooie uitdagingen voor komende week:

  1. Helaas was Noah deze week ziek, waardoor hij minder kon werken aan de vertaling van de 9 debatten. Ik hoop dat hij dit komende week kan afronden, zodat ik het daarna kan implementeren in Elastic.
  2. Verder wil ik gaan kijken naar hoe ik de data van een Elastic query gebruik om een Ngram te maken.
  3. Ook wil ik gaan beginnen aan mijn onderzoek naar zoekinterfaces.

Het notebook, waar van de vooruitgangen 1 tm 3 staan:

Alvast een fijn weekend!

Asher

maartenmarx commented 1 year ago

Hi @AsherIDE , wat een mooie voortgang boek je zeg. Echt geweldig!!! Jij ging toch proberen een Google ngram viwer te maken? Met als lijnen de verschillende landen, en op de y-as dan perr jaar het rel;atieve aandeel van dat ngram in dat jaar in dat land?

En dan natuurlijk mooie via de vertalingen!

Kan je hiermee verder? Bel me andere sgerust even vandaag. Succes maarten

AsherIDE commented 1 year ago

Hi @maartenmarx,

Wat u beschrijft over mijn Ngram niche klopt zeker, alleen mijn plan is om op allerlei manieren het visualiseren van Google Ngrams mogelijk te maken. Ik zat zo te denken aan:

Ik moest vandaag werken, maar als u binnenkort weer een Zoom meeting host, dan kom ik graag weer langs om mijn vooruitgang te bespreken.

Fijn weekend!

Asher