Progress report VII (en Agenda Meeting III)

Hi @maartenmarx ,

De vooruitgang van deze week is als volgt:

Wij zijn er achter gekomen dat de translation langer gaat duren, omdat wij de grootte van translated CSV files verkeerd hadden ingeschat. Dit betekent dat de code zo geschreven moet worden zodat er evenveel losse translated CSV's gaan zijn als dat er losse XML's zijn voor een land. Daarnaast is het verwerken van de landen zelf nu goed voor NL, SI, BG, CZ en DK, maar helaas zijn HU, IS en IT niet goed vertaald wat betekent dat wij het ook niet goed kunnen verwerken.
Het is mij gelukt om een soort van Ngram functie te maken, zoals te zien in de onderstaande afbeelding.
- Ik overweeg momenteel om een extra feature toe te voegen in Elastic die per XML aangeeft hoeveel woorden er in het document staan, om (Word Count / Total word count) * 100 te kunnen doen voor de daadwerkelijke Ngram
Voor mijn onderzoek naar UI heb ik deze week het boek Search User Interfaces besturdeerd en ik heb een mooie samenvatting voor mijzelf gemaakt, die ik later makkelijk kan gebruiken voor het maken en evalueren van de UI. Ook heb ik dit gemaakt met de focus op het makkelijk terugvinden van onderdelen van het boek die relevant voor mijn scriptie zijn.
Verder heb ik nog een aantal kleine warnings van Elastic opgelost in mijn notebooks.

Nog wat mooie uitdagingen voor komende week:

Komende week gaan wij voor de translation kijken naar:
- Het opdelen van de al vertaalde landen in kleinere files, zodat onze computers de processing capacity aankunnen en het latere verwerken dus te doen gaat zijn.
- Verder gaan wij een poging doen om de niet goed vertaalde landen op een andere manier te gaan doen.
Verder wil ik deze week mijn Ngram viewer volledig werkend maken, zodat het een echte Ngram is.
Voor mijn UI onderzoek wil ik komende week bekende websites gaan bestuderen over hoe zij hun UI hebben gemaakt, waarbij ik mijn aantekeningen van het boek wil gaan gebruiken om bijvoorbeeld per design guideline te kijken hoe daar rekening mee gehouden is.

Punten voor op de agenda zijn:

Als eerste wil ik behandelen waar ik naartoe werk:
- Een website waar op kan worden gezocht door debatten, waarbij verschillende queries met elkaar kunnen worden vergeleken.
- Bij het zoeken zal er een Ngram aanwezig zijn om de frequentie van een term in verhouding tot de hoeveelheig woorden aan te geven (als ik het goed begrijp is dat een Ngram)
- Bij het vergelijken zullen query uitkomsten naast elkaar worden gelegd, waarbij twee verschillende teksten bijvoorbeeld tegelijk geselecteerd kunnen worden (of dat is ten minste mijn idee).
- Verder zorgen dat de UX zo goed mogelijk is bij het gebruik van de site
Mijn aanpak hiervoor is (het gaat mij er hier vooral om of ik iets over het hoofd zie):
- Elastic laatste dingen afronden
- Ngrams werkend maken
- UI onderzoek afronden
- Ontwerpen maken voor de website aan de hand van UI onderzoek
- Website bouwen
- Kwalitatief onderzoek opstellen om prestaties van de website te testen
- Kwalitatief onderzoek uitvoeren bij de doelgroep
- Feedback verwerken en website updaten
- Scriptieverslag zelf afschrijven
Ik wil u in het kort informeren wat mijn zoekmachine tot nu toe allemaal al kan en hoe ik deze gebruik voor het maken van een Ngram.

Links voor de dingen die ik zojuist heb besproken:

Tot morgen,

Asher

AsherIDE / EU-scale-search