tutugarin / SpeechGPT

1 stars 1 forks source link

CLAP: Learning Audio Concepts From Natural Language Supervision #5

Closed tutugarin closed 1 month ago

tutugarin commented 1 month ago

Разобрать статью https://arxiv.org/abs/2206.04769

Sanasar1 commented 1 month ago

CLAP: Contrastive Language-Audio Pretraining

1. О чем статья

Статья описывает новый метод Contrastive Language-Audio Pretraining (CLAP), который использует естественный язык для обучения аудиомоделей. В отличие от традиционных моделей, которые требуют ручных меток классов для обучения, CLAP обучается на парах аудио и текстов. Модель способна выполнять классификацию звуковых событий, распознавать музыкальные жанры и эмоции в речи без необходимости дообучения на заранее определённых метках классов.

2. Какую задачу решают

Основная задача, решаемая в статье, — это устранение зависимости от фиксированных классов и создание модели, способной к Zero-Shot классификации. Это значит, что модель может предсказывать новые, ранее невидимые классы звуков, используя текстовые описания, что расширяет её возможности.

3. Как решают

Решение достигается с помощью двух энкодеров (аудио и текстового), которые обучаются совместно с использованием контрастного обучения. В качестве аудиоэнкодера используется CNN14, в качестве текстового энкодера - BERT base uncased. Аудио и текстовые описания проецируются в общее пространство, где за метрику похожести используется косинусное расстояние. CLAP позволяет:

Основные этапы:

  1. Модель обучается на 128,010 парах аудио и текста.
  2. При тестировании модель вычисляет косинусное сходство между векторными представлениями аудио и текстов классов для Zero-Shot классификации.
  3. Модель протестирована на 16 датасетах в 8 различных "задачах".

4. Какие выводы

image

5. Есть ли код для статьи

Отсутствует

6. Открыты ли веса

Отсутствует

7. На каких данных обучаются

CLAP обучена на 128,010 парах аудио и текста, собранных из следующих источников:

  1. FSD50K — 36,796 пар аудио и текста. Аудиоклипы длительностью от 0,3 до 30 секунд
  2. ClothoV2 — 29,646 пар. Аудиоклипы длительностью от 15 до 30 секунд, которые описаны пятью различными текстами
  3. AudioCaps — 44,292 пары. Аудиоклипы длиной 10 секунд с описаниями
  4. MACS — 17,276 пар аудио и текста. Аудиоклипы длиной 10 секунд с описаниями

8. Примечания