Improve YouTube transcripts

StampyAI / alignment-research-dataset

Stampy's copy of Alignment Research Dataset scraper

MIT License

6 stars 6 forks source link

Maybe we can use LangChain document loaders in conjuction with their whisper parser? https://python.langchain.com/docs/integrations/document_loaders/youtube_audio

# ! pip install yt_dlp
# ! pip install pydub

from langchain.document_loaders.generic import GenericLoader
from langchain.document_loaders.parsers import OpenAIWhisperParser
from langchain.document_loaders.blob_loaders.youtube_audio import YoutubeAudioLoader

url="https://www.youtube.com/watch?v=jGwO_UgTS7I"
save_dir="docs/youtube/"
loader = GenericLoader(
    YoutubeAudioLoader([url],save_dir),
    OpenAIWhisperParser()
)
docs = loader.load()

StampyAI / alignment-research-dataset

Improve YouTube transcripts #172