mrsndmn / lct_2024

0 stars 0 forks source link

Разделение аудио дорожек #3

Closed mrsndmn closed 4 months ago

mrsndmn commented 5 months ago

В задаче сказано, что надо отдельно реализовать матчинг по аудио и отдельно матчинг по видео.

Чтобы реализовать матчинг по аудио надо отделить аудио дорожку от видео.

Нужно тоже нормализоавть отделенные аудиодорожки и привести их к единому формату

Для отделения аудио от видео, скорее всего, потребуется тоже ffmpeg.

Параметры для нормализованного аудио:

Разделение дорожек для сцен

Не забываем, что у нас есть еще видосики с нарезанными сценами -- нужно сделать возможность отделения аудио и для нарезанных видосиков на сцены

Как мы поймем, какая аудио соответствует какому видео?

В качестве идентификаторов файликов будем использовать md5. Нужно сохранить в отдельный файлик (csv или jsonl) маппинг аудио файликов к видео файликам

mrsndmn commented 4 months ago

https://github.com/mrsndmn/lct_2024/blob/c24ddb8948e1a0e8e45969bb3e07df38d00d23d4/scripts/data/extract_audio_from_video.py

Скрипт для вытаскивания аудио из видео + нормализация аудио