Open ookgezellig opened 1 month ago
Geweldig! Doen we. En ik zal vanaf nu de transcripts gaan bewaren.
Geweldig! Doen we. En ik zal vanaf nu de transcripts gaan bewaren.
Ah super, tof, laten we dat doen! Ik geef je een seintje zodra ik klaar ben met de AI-transcripties!
Mega indrukwekkende technologie trouwens, dat Whisper! Ik zal de code uiteraard ook publiceren.
Idee: Kunnen we er niet een klein prijsje oid aan koppelen?
Voorlopig linkje naar Google Drive - nog testen!
https://drive.google.com/drive/folders/15XZtCop3CxXPxafROMz3jopMG-gKwP7T?usp=sharing
Ik heb de eerste 92 afleveringen getranscribeerd - de gesproken tekst omgezet in uitgeschreven tekst. De ruwe transcripties die ik m.b.v. Whipser gegenereerd heb, heb ik m.b.v. ChatGPT zo goed en natuurgetrouw mogelijk laten corrigeren. Die verbeterde bestanden staan z.s.m. in de transcripts/chatgpt-corrected folder.
Dit levert over het algemeen al zeer goede en bruikbare resultaten op. Echter, er zitten nog steeds fouten in. Met name de zgn. named entities zijn niet altijd goed uitgeschreven. Denk hierbij aan
Daarnaast zitten er vaak/soms nog wat kleinere grammaticale fouten in de transcripties. Of worden de veel voorkomende 'tussengeluidjes' niet goed geïnterpreteerd.
Ik zou dit soort fouten in de AI-gegenereerde transcripties graag handmatig verbeterd willen hebben, opdat de transcripties (bijna) 100% strak en correct zullen zijn.
Daarvoor zat ik te denken om een oproep te (laten) doen aan de luisteraars van de ZeS-podcast. Het gaat om in totaal 90 afleveringen die nog handmatige post-correctie nodig hebben (ik heb er zelf al 2 gedaan). Als er nou bv. 90 luisteraars gevonden worden die elk 1 aflevering kunnen corrigeren (of 45 die er elk 2 doen), dan is dit klusje zo gedaan. Ik kan de te corrigeren teksten dan bv. in een Google-drive-folder zetten en een korte werkinstructie schrijven.
Als Hens dan in een ZeS-aflevering een oproep wil doen (met een link naar de folder in de shownotes), dan zou dit een niet al te moeilijk en tijdrovend klusje kunnen zijn.