JNaranjo-Alcazar / acoustic_scene_dcase2022

Codes related to acoustic scene classification task for DCASE 2022
MIT License
3 stars 1 forks source link

Spectrogram representation #3

Open JNaranjo-Alcazar opened 3 years ago

JNaranjo-Alcazar commented 3 years ago

Obtain log-mel spectrogram from an audio

Harmonic and percussive spectrogram

CQT

JNaranjo-Alcazar commented 3 years ago

echale un ojo a este script para hacerte una idea https://github.com/Machine-Listeners-Valencia/DCASE2021-Task1b/blob/main/src/get_spectrograms.py, es mío, no lo tomes todo al pie de la letra. Pero mira las funciones que llamo @jozapa

JNaranjo-Alcazar commented 3 years ago

Yo haría los espectrogramas con torchaudio. Creo que es más eficiente https://pytorch.org/audio/stable/transforms.html

Para ello, haz una clase que inicialice el transformer (tipo como la de LEAF que ahora la arreglo para que sea una clase). Y deberá tener varios métodos. Entre ellos, el método extract que dado un wav extrae el espectrograma.

JNaranjo-Alcazar commented 2 years ago

Aunque ahora viéndolo Kapre nos puede servir mucho ya que es de Tensorflow y tiene compatibilidad con Tensorflow Lite (formato que nos interesa para la Raspberry). Por lo que veo, se añade como una capa más dentro del modelo https://github.com/keunwoochoi/kapre