Closed AsherIDE closed 9 months ago
Hi @AsherIDE , gaaf! Even over die 10.000 cap. Wat zijn voor jouw documenten? En dus hits.
Je kan ook over de ngram viewer architectuur lezen en dan zie je dat alles hard-coded is. Is dat geen leuk idee om het af te ronden? Even echt CS! Maar dan dus wel heel erg snel! En je bent van die 10K max af, wat een stom gedoe.
Je kan daar altijd nog die zoek-interface aan koppelen. Die gaat dan daarna echt zoeken.
Snap je wat ik bedoel? Je hebt gewoon een tabel/dict/datastructuur met
ngram--> land-->jaar--> aantal
Ja, ik snap ook wel dat die best groot is. Maar dat maakt toch niet uit?
Ik ben beniuwd.
Hi @maartenmarx ,
Ik heb nog geprobeerd om via Elastic al te tellen hoevaak een woord per entry voorkomt, maar gek genoeg is het op die manier stukken trager. Mogelijk omdat deze manier eerst alle zinnen moet samenvoegen onder een file, dan alle files van dezelfde dag samen moet voegen om als laatst al deze files op een date samen te voegen.
Dus nu heb ik de huidige functie aangepast om per land een aparte query te doen, wat nu ongeveer 10 seconden duurt voor hele grote queries. Bij een jaar duurde dat maar ongeveer drie seconden en een maand duurde maar een halve seconde.
Als ik u goed begrijp, stelt u voor dat ik alvast een aantal terms ga preprocessen om tijd te besparen voor gebruikers. Daar vraag ik mij dan wel bij af voor welke termen dat nou echt relevant zou zijn, aangezien mijn doelgroep heel breed is en het dus moeilijk te voorspellen is waar zij op zouden zoeken. Verder heeft alleen het grootste ngram overzicht rond de 10 seconden nodig en de rest is zo klaar.
Als u wil dat ik woorden ga preprocessen, heeft u dan een tip voor welke woorden ik het beste zou kunnen kiezen?
Groet,
Asher
Hi @AsherIDE , volgens mij heeft de google ngram viewer gewoon elk 1,2,3,4,5 gram dat in de stukken voorkomt inm de index opgeslagen. Je kiest dus niet ,maar indexeert alles. Ja, dit is best serieus.
Maar goed, als je het redelijk snel kunt houden, doe je het toch fijn uit de index. Dat is ook prima joh. Die ngrammen "voorkoken" is eigenlijk alleen engineering.
Hi @maartenmarx ,
De vooruitgang van deze week is als volgt:
Nog wat mooie uitdagingen voor komende week:
Groet,
Asher