Wij zijn er achter gekomen dat de translation langer gaat duren, omdat wij de grootte van translated CSV files verkeerd hadden ingeschat. Dit betekent dat de code zo geschreven moet worden zodat er evenveel losse translated CSV's gaan zijn als dat er losse XML's zijn voor een land. Daarnaast is het verwerken van de landen zelf nu goed voor NL, SI, BG, CZ en DK, maar helaas zijn HU, IS en IT niet goed vertaald wat betekent dat wij het ook niet goed kunnen verwerken.
Het is mij gelukt om een soort van Ngram functie te maken, zoals te zien in de onderstaande afbeelding.
Ik overweeg momenteel om een extra feature toe te voegen in Elastic die per XML aangeeft hoeveel woorden er in het document staan, om (Word Count / Total word count) * 100 te kunnen doen voor de daadwerkelijke Ngram
Voor mijn onderzoek naar UI heb ik deze week het boek Search User Interfaces besturdeerd en ik heb een mooie samenvatting voor mijzelf gemaakt, die ik later makkelijk kan gebruiken voor het maken en evalueren van de UI. Ook heb ik dit gemaakt met de focus op het makkelijk terugvinden van onderdelen van het boek die relevant voor mijn scriptie zijn.
Verder heb ik nog een aantal kleine warnings van Elastic opgelost in mijn notebooks.
Nog wat mooie uitdagingen voor komende week:
Komende week gaan wij voor de translation kijken naar:
Het opdelen van de al vertaalde landen in kleinere files, zodat onze computers de processing capacity aankunnen en het latere verwerken dus te doen gaat zijn.
Verder gaan wij een poging doen om de niet goed vertaalde landen op een andere manier te gaan doen.
Verder wil ik deze week mijn Ngram viewer volledig werkend maken, zodat het een echte Ngram is.
Voor mijn UI onderzoek wil ik komende week bekende websites gaan bestuderen over hoe zij hun UI hebben gemaakt, waarbij ik mijn aantekeningen van het boek wil gaan gebruiken om bijvoorbeeld per design guideline te kijken hoe daar rekening mee gehouden is.
Punten voor op de agenda zijn:
Als eerste wil ik behandelen waar ik naartoe werk:
Een website waar op kan worden gezocht door debatten, waarbij verschillende queries met elkaar kunnen worden vergeleken.
Bij het zoeken zal er een Ngram aanwezig zijn om de frequentie van een term in verhouding tot de hoeveelheig woorden aan te geven (als ik het goed begrijp is dat een Ngram)
Bij het vergelijken zullen query uitkomsten naast elkaar worden gelegd, waarbij twee verschillende teksten bijvoorbeeld tegelijk geselecteerd kunnen worden (of dat is ten minste mijn idee).
Verder zorgen dat de UX zo goed mogelijk is bij het gebruik van de site
Mijn aanpak hiervoor is (het gaat mij er hier vooral om of ik iets over het hoofd zie):
Elastic laatste dingen afronden
Ngrams werkend maken
UI onderzoek afronden
Ontwerpen maken voor de website aan de hand van UI onderzoek
Website bouwen
Kwalitatief onderzoek opstellen om prestaties van de website te testen
Kwalitatief onderzoek uitvoeren bij de doelgroep
Feedback verwerken en website updaten
Scriptieverslag zelf afschrijven
Ik wil u in het kort informeren wat mijn zoekmachine tot nu toe allemaal al kan en hoe ik deze gebruik voor het maken van een Ngram.
Links voor de dingen die ik zojuist heb besproken:
Hi @AsherIDE , heel mooi. Maar ik ben bang dat je teveel hooi op je vork neemt. Richt je nou op 1 applicatie, en dan kan je je altijd daarin verder verdiepen.
Dat is dan
input : een ES query (kan ook best iets ingewikkelds zijn)
output: een (niet absolute maar per land relatieve, goed opgemarkt van je!) ngram viewer met voor elk land een lijn, gebaseerd op de automatisch vertyaalde query
Hier bovenop kan je nog alerlei toeters en bellen, zoals je boven aangeeft, toevoegen, want in feite run je gewoon K veel queries op K collecties.
Maar zorg nou eerst dat je dit echt goed hebt staan.
Hi @maartenmarx ,
De vooruitgang van deze week is als volgt:
Nog wat mooie uitdagingen voor komende week:
Punten voor op de agenda zijn:
Links voor de dingen die ik zojuist heb besproken:
Tot morgen,
Asher