ookgezellig / Zimmerman-en-Space-podcast

Webscrape of the Zimmerman en Space podcast, and publication on Wikimedia Commons
https://ookgezellig.github.io/Zimmerman-en-Space-podcast/
0 stars 0 forks source link

Luisteraars van ZeS vragen om audiotranscripties te post-corrigeren (mbv oproep HZ) #10

Open ookgezellig opened 1 month ago

ookgezellig commented 1 month ago

Ik heb de eerste 92 afleveringen getranscribeerd - de gesproken tekst omgezet in uitgeschreven tekst. De ruwe transcripties die ik m.b.v. Whipser gegenereerd heb, heb ik m.b.v. ChatGPT zo goed en natuurgetrouw mogelijk laten corrigeren. Die verbeterde bestanden staan z.s.m. in de transcripts/chatgpt-corrected folder.

Dit levert over het algemeen al zeer goede en bruikbare resultaten op. Echter, er zitten nog steeds fouten in. Met name de zgn. named entities zijn niet altijd goed uitgeschreven. Denk hierbij aan

Daarnaast zitten er vaak/soms nog wat kleinere grammaticale fouten in de transcripties. Of worden de veel voorkomende 'tussengeluidjes' niet goed geïnterpreteerd.

Ik zou dit soort fouten in de AI-gegenereerde transcripties graag handmatig verbeterd willen hebben, opdat de transcripties (bijna) 100% strak en correct zullen zijn.

Daarvoor zat ik te denken om een oproep te (laten) doen aan de luisteraars van de ZeS-podcast. Het gaat om in totaal 90 afleveringen die nog handmatige post-correctie nodig hebben (ik heb er zelf al 2 gedaan). Als er nou bv. 90 luisteraars gevonden worden die elk 1 aflevering kunnen corrigeren (of 45 die er elk 2 doen), dan is dit klusje zo gedaan. Ik kan de te corrigeren teksten dan bv. in een Google-drive-folder zetten en een korte werkinstructie schrijven.

Als Hens dan in een ZeS-aflevering een oproep wil doen (met een link naar de folder in de shownotes), dan zou dit een niet al te moeilijk en tijdrovend klusje kunnen zijn.

hz37 commented 1 month ago

Geweldig! Doen we. En ik zal vanaf nu de transcripts gaan bewaren.

ookgezellig commented 1 month ago

Geweldig! Doen we. En ik zal vanaf nu de transcripts gaan bewaren.

Ah super, tof, laten we dat doen! Ik geef je een seintje zodra ik klaar ben met de AI-transcripties!

Mega indrukwekkende technologie trouwens, dat Whisper! Ik zal de code uiteraard ook publiceren.

ookgezellig commented 1 month ago

Idee: Kunnen we er niet een klein prijsje oid aan koppelen?

ookgezellig commented 1 month ago

Voorlopig linkje naar Google Drive - nog testen!

https://drive.google.com/drive/folders/15XZtCop3CxXPxafROMz3jopMG-gKwP7T?usp=sharing