AsherIDE / EU-scale-search

They work for you at EU scale
https://github.com/AsherIDE/EU-scale-search/tree/main/Personal-Documents
0 stars 0 forks source link

Progress report IX #15

Closed AsherIDE closed 11 months ago

AsherIDE commented 1 year ago

Hi @maartenmarx ,

De vooruitgang van deze week is als volgt:

  1. Het invoegen van de vertaalde landen is momenteel werkend, maar ik ben er achter gekomen dat het totaal inefficient is om per line de tekst te updaten. De bijbehorende notebook voor het invoegen van de talen:
  2. Ik heb inmiddels Google Scholars zoekmachine geanalyseerd aan de hand van de design guidelines uit het Search User Interfaces boek. Voor zo ver ik weet is het valide op de manier hoe ik het doe, omdat ik dus de guidelines volg uit het boek. Dit stuk is te vinden onder "Analyse van bekende search UI’s aan de hand van het boek" in het volgende document:
  3. Verder heb ik (zoals ik in de vorige issue ook had vermeld) nog een andere manier om ngrams te maken geprobeerd, dit werkte aan de hand van termvectors. Het probleem was dat deze per woord werden vastgesteld in plaats van voor alleen het specifieke gezochte woord, waardoor het niet efficienter verliep dan de huidige ngram building function. De huidige ngram function heb ik aangepast naar dat er per land een query wordt gedaan, zodat er meer entries in totaal meegenomen zouden kunnen worden tijdens het maken van de ngram. In het onderstaande document is nog mijn poging met de termvectors te vinden:
  4. In het document die alle informatie upload naar Elastic, heb ik nog een aantal kleine aanpassingen gemaakt voor het overzicht. Ook heb ik de volledige database (17 landen) geupload in Elastic en dat duurde nu 50 minuten. Dit vind ik best weinig, aangezien het over 10GB aan data gaat. De bijbehorende notebook hiervoor:

Nog wat mooie uitdagingen voor komende week:

  1. Omdat het invoeren van vertaalde landen momenteel langer duurt dan het invoeren van de volledige Parlamint dataset, wil ik komende week er voor zorgen dat het invoeren wordt gedaan tijdens het invoeren van de Parlamint dataset. Op die manier hoeft er niet te worden gezocht naar een id per vertaalde line. Dit zal stukken sneller zijn.
  2. Verder wil ik mijn onderzoek naar andere zoekmachines en hun functionaliteiten vervolgen.
  3. Als ik tijd over houd, dan wil ik de real-time translation tool kan integreren die Noah heeft gevonden.

Verder laat ik het idee voor al gegenereerde ngrams nog even buiten beschouwing omdat ik eerst de resultaten wil kunnen zien, die er worden geleverd wanneer ik met real-time translation door alle landen kan zoeken. Vanaf dat punt zal het niet heel moeilijk zijn om ngrams te genereren, als de live functie niet snel genoeg is. Het enige wat ik moeilijk vind is op welke manier ik relevantie woorden moet uitkiezen om daar ngrams voor te genereren.

Fijne vakantie,

Asher

maartenmarx commented 1 year ago

Hi @AsherIDE ,

Onze 5gram viewer

Snap je? Soms zijn dingen best simpel. Zo doet Google dit soort dingen ook hoor. ;-)

Het zou natuurlijk geweldig ziojn als je dit aan de praat kunt krijgen!!!!!! Jongen dat gaat echt veel verkeer opleveren hoor.

Wij hebben wel een server ergens. En anders die parliamint mensen wel.

Wees niet bang!!!!! Gewoon gaan tellen.

Bel me anders gerust even als je vragen hebt. Maak niet uit wanneer. Ik zit toch met mijn dochters lekker op het strand.

succes maarten

AsherIDE commented 1 year ago

Over mijn onderzoeksvraag

In mijn onderzoeksvoorstel had ik de volgende hoofdvraag met subvragen opgegeven:

“Tot in hoeverre is het mogelijk om een zoekmachine te maken die zoekt door debatten op Europese schaal om standpunten te bekijken en vergelijken, waarbij geen voorkennis van de zoekmachine nodig is voor de gebruiker?”

Met als subvragen:

U had mij pas al laten weten dat ik het beste eerst op de Ngram kon focussen, dus de hoofdvraag heb ik aangepast naar het volgende:

“Tot in hoeverre is het mogelijk om een zoekmachine te maken die zoekt door debatten door middel van een Ngram visualisatie op Europese schaal om standpunten te bekijken, waarbij geen voorkennis van de zoekmachine nodig is voor de gebruiker?”

Dingen die nog gedaan moeten worden voor het eindproduct

  1. Elastic Search werkend krijgen
    • Mogelijk meer landen vertalen op een andere manier (BG, CZ, DK, NL en SI staan inmiddels in Elastic)
    • Real-time translation integreren met queries naar Elastic, zodat er door elk (vertaald) land kan worden gezocht.
  2. Ngrams afmaken
  3. Search interface ontwerpen
    • Nog search interfaces van andere websites beoordelen op basis van design guidelines uit het Search User Interfaces boek
    • Zelf ontwerp maken
  4. Website maken
    • Minimum viable product maken, ofwel net functionele site waarop kan worden gezocht en dat er een Ngram daarbij wordt gevisualiseerd
    • Design implementeren
  5. Kwalitatief onderzoek doen waarbij mensen de site moeten gebruiken om een taak uit te voeren, om de website te evalueren
  6. Verslag schrijven

Verder

Overigens zou het prachtig zijn als het geheel later op een server zou draaien, waar iedereen gebruik van zou kunnen maken. Dan voegt mijn scriptie daadwerkelijk iets toe aan de wereld!

Van wat ik in de vakantie wilde gaan doen, heb ik dus het invoeren van vertalingen in Elastic opgelost. Verder zou ik deze week nog andere websites met search interfaces bekijken en ik zou mogelijk ook nog de real-time translation integreren, maar ik vraag mij nu af of het niet handiger is als ik eerst mijn volledige focus leg op het indexeren van de Ngrams?

Als het u ook uit zou komen, dan zou ik graag aankomende dinsdag even met u in een Zoom gaan/ even bellen. Dan weten wij daarna zeker dat we op één lijn zitten.

Fijn weekend,

Asher

maartenmarx commented 1 year ago

Hi @AsherIDE ,

  1. Ik zou die shingle tokenizer zeker proberen en aanzetten. dat is precies wat je wilt toch? Speel er eerst eens mee voor een klein corpusje.
  2. Joh, al die moeilijke onderzoeksvragen. ik vind het prachtig, maar ik denk, maak nou gewoon die versie van die Google ngram viewer voor het parliamint corpus, and bedenk er concrete, vaak best technische vragen bij.
  3. De sleutel vraagh is dan, Kunnen we het snel genoeg krijgen?
  4. Voor mij heb jij een vette 8 als je die ngram viewer werkend hebt met de architectuur die ik voorstelde, en hij is nog netjes nauwkeurig ook. Het schrijfwerk eromheen kan dan allemaal heel "kaal" en "technisch" zijn, en dus voor jou ook heel makkelijk. Er is zat om naar te refereren! Voor een BSc scriptie is dit echt een heel mooi resultaat!! Meer dan ik had durven hopen.
  5. Dus mijn voorstel
    • laat het zoekmachine werk nu even aan de andere jongens. Jullie zijn met heel veel toch?
    • Jij richt je op het maken van die megaindex van 1,2,3,4,5 grammen. Nou ja, index, het is eigenlijk een dict van de vorm
    • ngram --> land --> jaar --> aantal Dus eigenlijk verwijst elk ngram naar een heel; klein 2D array met integers erin. Dat is de data onder je plaatje.
    • En waarschijnlijk doe je dit in numpy arrays, geen dicts, om het echt snel te maken, of in iets in een pakket. Of een DB.
    • Dat maakt niet uit. Eerst maar eens die data allemaal op orde krijgen.
  6. Begin gewoon met de vertaalde corpora: dan is het toch makkelijk? Je doet alles gewoon in het Engels. Dan heb je een mooie beta versie staan, die eigenlijk alles doet, en kan je vandaar uitbreiden (en dus verdere deelvragen beantwoorden).

Is dit wat? We kunnen morgen om 12 uur even bellen, os dat wat? Of anders om 10:30. 06 400 16 120. Bel je mij dan?

groet maarten

AsherIDE commented 1 year ago

Hi @maartenmarx,

Onderzoeksvraag

Mijn nieuwe voorstel voor hoofdvraag en subvragen:

“Tot in hoeverre is het mogelijk om een snelle zoekmachine te maken die door debatten kan zoeken op Europese schaal om de verkregen informatie om te zetten naar een simpele Ngram visualisatie, waarbij geen voorkennis nodig is voor de gebruiker?”

Met als subvragen:

Zal ik ook nog een subvraag toevoegen die focust op het makkelijk interpreteerbaar maken van de Ngram zoekmachine?

Over uw voorstel

Tot morgen,

Asher