Closed tutugarin closed 1 month ago
Статья описывает новый метод Contrastive Language-Audio Pretraining (CLAP), который использует естественный язык для обучения аудиомоделей. В отличие от традиционных моделей, которые требуют ручных меток классов для обучения, CLAP обучается на парах аудио и текстов. Модель способна выполнять классификацию звуковых событий, распознавать музыкальные жанры и эмоции в речи без необходимости дообучения на заранее определённых метках классов.
Основная задача, решаемая в статье, — это устранение зависимости от фиксированных классов и создание модели, способной к Zero-Shot классификации. Это значит, что модель может предсказывать новые, ранее невидимые классы звуков, используя текстовые описания, что расширяет её возможности.
Решение достигается с помощью двух энкодеров (аудио и текстового), которые обучаются совместно с использованием контрастного обучения. В качестве аудиоэнкодера используется CNN14, в качестве текстового энкодера - BERT base uncased. Аудио и текстовые описания проецируются в общее пространство, где за метрику похожести используется косинусное расстояние. CLAP позволяет:
Отсутствует
Отсутствует
CLAP обучена на 128,010 парах аудио и текста, собранных из следующих источников:
Разобрать статью https://arxiv.org/abs/2206.04769