deboradum / bachelorThesis

Github repo for all content related to my bachelor thesis
0 stars 1 forks source link

8 Mei mijlpalen #7

Closed maartenmarx closed 11 hours ago

maartenmarx commented 2 months ago

Hi @deboradum ,

Ik denk dat je lekker op vakantie bent. Goed zo! Voor 8 Mei zou ik graag de volgende 0.9 versie van je systeem zien:

  1. Liefst het "spreker geluidsprofiel aan naam gekopopeld" spreadsheet ingevuld door alle gemeentes die meedoen. In ieder geval van eentje (desnoods doe je het zelf voro een paar sprekers, zo zie je ook hoe lastig dat is)
  2. Videos van de paar gemeentes gesegmenteerd op agendapunt en daaronder op spreker.
  3. Videos met whisper spraakherkend
  4. alles netjes in spreadsheet/json: text, datum, spreker, agendapunt, tijdscodes ,etc, alles wat we nodig hebben
  5. Die segmenten geindexeerd in weaviate, en de 2 soorten zoeken mogelijk gemaakt:
    • experimenteer wat met het wegen van de scores van verschillende onderdelen, (de speech, woorden in de titel van het agendapunt, allicht alle tekst in het agendapunt...)
    • Je zou kunnen denken aan een manier die we ook in Woogle gebruiken: je geeft "agendapunten " terug na een zoekvraag, en daarbinnen, een relevance ranked list van "sprekers"/"speeches van sprekers" (in Woogle zijn dat dan de paginas)
    • probeer ook uit te vogelen hoe je een "snippet" (dat stukje tekst met zoektermen in bold dat je ook altijd in de Google resultaat pagina ziet bij elke hit) uit weaviate kunt krijgen.
  6. Een heel primitieve SERP zou al mooi zijn, maar goed in json is ook best. Doorklikken naar de video is natuurlijk geweldig.

Integratie

OK joh @deboradum , ik zie ernaar uit! Succes Maarten

deboradum commented 2 months ago

Hi @maartenmarx! Ik was dit weekend even bijkomen van de koningsnacht/dag, helaas nog niet op vakantei haha.

Afgelopen week heb ik:

Ik was momenteel bezig met een skelet maken voor de frontend van de zoekmachine, ik was even aan wat anders toe dan de backend logica.

Betreffende jouw punten:

  1. Ik zal de spreadsheets eind vandaag dus opsturen. Tot nu toe zijn de gemeentes Haarlem, Hoekschewaard en Ridderkerk ge spreker segmenteerd, m'n twee servers staan nog continu aan met het transcriben en segmenteren.
  2. Ga ik doen.
  3. Veel is al gewhisperd, de servers blijven aan staan om meer getranscribed te krijgen.
  4. Ik za hier inderdaad naar kijken.
  5. Ik was dus alvast bezig met de frontend, waaronder serp, dus ik ga proberen dat ook af te krijgen komende week

Ik ga nu in ieder geval aan de slag met het opdelen in agendapunten van de videos, ik denk dat dat nu het belangrijkst is.

Bedankt en tot 8 mei!

Groetjes Pepijn

deboradum commented 2 months ago

@maartenmarx Ik heb een gedeelde spreadsheet gemaakt voor Ridderkerk:

https://docs.google.com/spreadsheets/d/13fp2syH2xEkzzH-248hlg3ClGexnjPypIbpgH-Ufmhg/edit?usp=sharing

Voor Hoekschewaard zag ik dat er op notbiz ook al wordt aangegeven wie er wanneer spreekt, Hoekschewaard zal ik dus zelf doen deze week.

Heb je ook die van Haarlem nodig? Die waren niet bij het overleg vorige week dacht ik, dus ik weet niet in hoeverre zij meedoen en op de hoogte zijn so far.

maartenmarx commented 2 months ago

Hi @deboradum

  1. Ik snap die start tijd en tijd niet helemaal.
  2. Maar als ik op https://ridderkerk.notubiz.nl/vergadering/938537 kijk zie je eigenlijk heel handig rechts wie er aan het woord is. Dus je zou dit zelf ook al prima kunnen doen, en allicht zelfs programmeren. Of snap ik iets niet?
    • En was het nou juist niet barendrecht die meedeed. En Ridderkerk allicht niet? Volgens mij wel.
  3. Haarlem hoeft voorlopig niet.
  4. Juist Nijmegen zou wel te gek zijn. Deed je die ook?

zoeken in de videotulen

deboradum commented 2 months ago

@maartenmarx

Ah top, sommigen van Ridderkerk hebben dus ook al sprekers, de sprekers zullen niet zo regelmatig veranderen dus dat doe ik inderdaad dan ook zelf. De sprekers zullen niet veel veranderen onder video's/ jaren neem ik aan.

Nijmegen had wat download problemen. Ik vermoed dat ik het achterliggende probleem gevonden had maar dat had ik nog niet getest. Zal ik vanavond/ morgen doen. De video's zullen wel gesegmenteerd moeten worden, dus die zal morgen middag komen.

Het zoeken werkt al best aardig btw! =)

maartenmarx commented 2 months ago

OK @deboradum , top, maar doe vooral de sprekers van barendrecht en hoeksche waard. Morgen spreek ik Nijmegen en ik zal ze vragen of ze dat willen. Dat is niet notubiz, maar die bestuurlijke informatuie. Dab laart ik dat nog weten. Groetjes