Progress report IX - Githubissues

Hi @maartenmarx ,

De vooruitgang van deze week is als volgt:

Het invoegen van de vertaalde landen is momenteel werkend, maar ik ben er achter gekomen dat het totaal inefficient is om per line de tekst te updaten. De bijbehorende notebook voor het invoegen van de talen:
- https://github.com/AsherIDE/EU-scale-search/blob/main/Notebooks/translation_insertion_2.ipynb
Ik heb inmiddels Google Scholars zoekmachine geanalyseerd aan de hand van de design guidelines uit het Search User Interfaces boek. Voor zo ver ik weet is het valide op de manier hoe ik het doe, omdat ik dus de guidelines volg uit het boek. Dit stuk is te vinden onder "Analyse van bekende search UI’s aan de hand van het boek" in het volgende document:
- https://docs.google.com/document/d/1pQwQ92vFPQcaIHy5MV0rgfDIhj1eEB3-jl_6XmLgYn8
Verder heb ik (zoals ik in de vorige issue ook had vermeld) nog een andere manier om ngrams te maken geprobeerd, dit werkte aan de hand van termvectors. Het probleem was dat deze per woord werden vastgesteld in plaats van voor alleen het specifieke gezochte woord, waardoor het niet efficienter verliep dan de huidige ngram building function. De huidige ngram function heb ik aangepast naar dat er per land een query wordt gedaan, zodat er meer entries in totaal meegenomen zouden kunnen worden tijdens het maken van de ngram. In het onderstaande document is nog mijn poging met de termvectors te vinden:
- https://github.com/AsherIDE/EU-scale-search/blob/main/Notebooks/ngram_playground_1_3.ipynb
In het document die alle informatie upload naar Elastic, heb ik nog een aantal kleine aanpassingen gemaakt voor het overzicht. Ook heb ik de volledige database (17 landen) geupload in Elastic en dat duurde nu 50 minuten. Dit vind ik best weinig, aangezien het over 10GB aan data gaat. De bijbehorende notebook hiervoor:
- https://github.com/AsherIDE/EU-scale-search/blob/main/Notebooks/improved_search_1_4.ipynb

Nog wat mooie uitdagingen voor komende week:

Omdat het invoeren van vertaalde landen momenteel langer duurt dan het invoeren van de volledige Parlamint dataset, wil ik komende week er voor zorgen dat het invoeren wordt gedaan tijdens het invoeren van de Parlamint dataset. Op die manier hoeft er niet te worden gezocht naar een id per vertaalde line. Dit zal stukken sneller zijn.
Verder wil ik mijn onderzoek naar andere zoekmachines en hun functionaliteiten vervolgen.
Als ik tijd over houd, dan wil ik de real-time translation tool kan integreren die Noah heeft gevonden.

Verder laat ik het idee voor al gegenereerde ngrams nog even buiten beschouwing omdat ik eerst de resultaten wil kunnen zien, die er worden geleverd wanneer ik met real-time translation door alle landen kan zoeken. Vanaf dat punt zal het niet heel moeilijk zijn om ngrams te genereren, als de live functie niet snel genoeg is. Het enige wat ik moeilijk vind is op welke manier ik relevantie woorden moet uitkiezen om daar ngrams voor te genereren.

Fijne vakantie,

Asher

Hi @AsherIDE ,

Het klinkt allemaal geweldig, maar ik moet zeggen dat ik soms de draad wat kwijtraak bij je. Maar dat komt vast omdat ik zoveel scripties begeleid,. ;-)
Maar kan je nog eens een stappenplan maken naar je eindproduct, en de bijbehorende onderzoeksvragen?
Allicht voor jezelf ook nuttig, om te zien of je "op het pad blijft".

Onze 5gram viewer

https://www.google.com/search?q=political+mashup+ngram+viewer
Ik denk hier: https://www.researchgate.net/publication/296672783_PoliticalMashup_Ngramviewer meer
We hadden gewoon alle 1,2,3,4,5 grammen die er zijn geindexreerd. Hard coded dus. Dat wordt wel groot, maar is ook erg snel. We hadden een eigen in memory index dacht ik, met voor elke ngram, de magtrix voor de grafiek opgeslagen. Alles was dus voorberekend.
- terwijl de gebruker naar die grafiek zat te staren ging ES aan het werk voor de query.
Kan je dat niet ook aan ES vragen om te doen? Begin gewoon met 1,2,3 grammen.
En dan is het toch gewoon tussen dubbele quotes zetten?

Snap je? Soms zijn dingen best simpel. Zo doet Google dit soort dingen ook hoor. ;-)

Het zou natuurlijk geweldig ziojn als je dit aan de praat kunt krijgen!!!!!! Jongen dat gaat echt veel verkeer opleveren hoor.

Wij hebben wel een server ergens. En anders die parliamint mensen wel.

Wees niet bang!!!!! Gewoon gaan tellen.

Bel me anders gerust even als je vragen hebt. Maak niet uit wanneer. Ik zit toch met mijn dochters lekker op het strand.

succes maarten

Over mijn onderzoeksvraag

In mijn onderzoeksvoorstel had ik de volgende hoofdvraag met subvragen opgegeven:

“Tot in hoeverre is het mogelijk om een zoekmachine te maken die zoekt door debatten op Europese schaal om standpunten te bekijken en vergelijken, waarbij geen voorkennis van de zoekmachine nodig is voor de gebruiker?”

Met als subvragen:

In hoeverre geeft een Ngram een duidelijke visualisatie van trefwoord relevantie aan een onervaren gebruiker?
Waar moet rekening mee worden gehouden tijdens het maken van een zoekinterface?
In hoeverre is het mogelijk om door niet Engelse talen te zoeken met een andere ingevoerde taal dan de taal waarin wordt gezocht?

U had mij pas al laten weten dat ik het beste eerst op de Ngram kon focussen, dus de hoofdvraag heb ik aangepast naar het volgende:

“Tot in hoeverre is het mogelijk om een zoekmachine te maken die zoekt door debatten door middel van een Ngram visualisatie op Europese schaal om standpunten te bekijken, waarbij geen voorkennis van de zoekmachine nodig is voor de gebruiker?”

Dingen die nog gedaan moeten worden voor het eindproduct

Elastic Search werkend krijgen
- Mogelijk meer landen vertalen op een andere manier (BG, CZ, DK, NL en SI staan inmiddels in Elastic)
- Real-time translation integreren met queries naar Elastic, zodat er door elk (vertaald) land kan worden gezocht.
Ngrams afmaken
- Ik heb een andere functie die met een 3 landen ngram 7 in plaats van 11 seconden nodig heeft, maar dat zal dus niet goed genoeg zijn.
- Ofwel een Shingle token filter in Elastic opzetten zodat ik daarna 1,2,3,4,5 grams kan gaan indexeren. (https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-shingle-tokenfilter.html)
Search interface ontwerpen
- Nog search interfaces van andere websites beoordelen op basis van design guidelines uit het Search User Interfaces boek
- Zelf ontwerp maken
Website maken
- Minimum viable product maken, ofwel net functionele site waarop kan worden gezocht en dat er een Ngram daarbij wordt gevisualiseerd
- Design implementeren
Kwalitatief onderzoek doen waarbij mensen de site moeten gebruiken om een taak uit te voeren, om de website te evalueren
Verslag schrijven

Verder

Overigens zou het prachtig zijn als het geheel later op een server zou draaien, waar iedereen gebruik van zou kunnen maken. Dan voegt mijn scriptie daadwerkelijk iets toe aan de wereld!

Van wat ik in de vakantie wilde gaan doen, heb ik dus het invoeren van vertalingen in Elastic opgelost. Verder zou ik deze week nog andere websites met search interfaces bekijken en ik zou mogelijk ook nog de real-time translation integreren, maar ik vraag mij nu af of het niet handiger is als ik eerst mijn volledige focus leg op het indexeren van de Ngrams?

Als het u ook uit zou komen, dan zou ik graag aankomende dinsdag even met u in een Zoom gaan/ even bellen. Dan weten wij daarna zeker dat we op één lijn zitten.

Fijn weekend,

Asher

Hi @AsherIDE ,

Ik zou die shingle tokenizer zeker proberen en aanzetten. dat is precies wat je wilt toch? Speel er eerst eens mee voor een klein corpusje.
Joh, al die moeilijke onderzoeksvragen. ik vind het prachtig, maar ik denk, maak nou gewoon die versie van die Google ngram viewer voor het parliamint corpus, and bedenk er concrete, vaak best technische vragen bij.
De sleutel vraagh is dan, Kunnen we het snel genoeg krijgen?
Voor mij heb jij een vette 8 als je die ngram viewer werkend hebt met de architectuur die ik voorstelde, en hij is nog netjes nauwkeurig ook. Het schrijfwerk eromheen kan dan allemaal heel "kaal" en "technisch" zijn, en dus voor jou ook heel makkelijk. Er is zat om naar te refereren! Voor een BSc scriptie is dit echt een heel mooi resultaat!! Meer dan ik had durven hopen.
Dus mijn voorstel
- laat het zoekmachine werk nu even aan de andere jongens. Jullie zijn met heel veel toch?
- Jij richt je op het maken van die megaindex van 1,2,3,4,5 grammen. Nou ja, index, het is eigenlijk een dict van de vorm
- ngram --> land --> jaar --> aantal Dus eigenlijk verwijst elk ngram naar een heel; klein 2D array met integers erin. Dat is de data onder je plaatje.
- En waarschijnlijk doe je dit in numpy arrays, geen dicts, om het echt snel te maken, of in iets in een pakket. Of een DB.
- Dat maakt niet uit. Eerst maar eens die data allemaal op orde krijgen.
Begin gewoon met de vertaalde corpora: dan is het toch makkelijk? Je doet alles gewoon in het Engels. Dan heb je een mooie beta versie staan, die eigenlijk alles doet, en kan je vandaar uitbreiden (en dus verdere deelvragen beantwoorden).

Is dit wat? We kunnen morgen om 12 uur even bellen, os dat wat? Of anders om 10:30. 06 400 16 120. Bel je mij dan?

groet maarten

Hi @maartenmarx,

Onderzoeksvraag

Mijn nieuwe voorstel voor hoofdvraag en subvragen:

“Tot in hoeverre is het mogelijk om een snelle zoekmachine te maken die door debatten kan zoeken op Europese schaal om de verkregen informatie om te zetten naar een simpele Ngram visualisatie, waarbij geen voorkennis nodig is voor de gebruiker?”

Met als subvragen:

Wat is de snelste manier om een Ngram te kunnen visualiseren?
In hoeverre is het mogelijk om met een willekeurige taal alsnog in iedere taal te kunnen zoeken?

Zal ik ook nog een subvraag toevoegen die focust op het makkelijk interpreteerbaar maken van de Ngram zoekmachine?

Over uw voorstel

Wij startten met Sijf, Berkay, Daniel, Noah en ik zelf aan de zoekmachine. Al snel vielen Sijf, Berkay en Daniel af. Voor Sijf en Berkay was het programmeren te moeilijk en van Daniel weet ik dat de zoekmachine niet heel relevant meer voor hem is met de scriptie die hij nu doet. De afgelopen weken heb ik dus samen met Noah de zoekmachine gemaakt.
Ik zal dan voor nu mijn focus zetten op het indexeren van de dataset, dank u voor de tips! Dan zal ik eerst de vertaalde landen indexeren.
Morgen bellen om 12 klinkt perfect voor mij, dan zal ik u bellen.

Tot morgen,

Asher

AsherIDE / EU-scale-search

Progress report IX #15

Onze 5gram viewer

Over mijn onderzoeksvraag

Dingen die nog gedaan moeten worden voor het eindproduct

Verder

Onderzoeksvraag

Over uw voorstel