zerebom / paper-books

@zerebom が読んだ技術書、論文をまとめています。推薦システム系が多いです。
https://github.com/zerebom/paper-books/issues
2 stars 0 forks source link

PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition #44

Open zerebom opened 3 years ago

zerebom commented 3 years ago

src: https://arxiv.org/pdf/1912.10211.pdf 音声認識用NNモデル

画像にはResNet、 MLPではBERTのような汎用的なモデルが有り、これらを巨大なデータセットでfine-tuneするという方法が有用だが、音声認識にはそのようなモデルが今のところない。そこで、このPANNsアーキテクチャを提案した。

PANNs は、短時間フーリエ変換を繰り返して、時間と周波数帯の2軸画像に変換する、log-mel-spectrogramと、 1d-Convから作成するWavegram特徴量をチャネル方向でmergeすることで、リッチな特徴量を獲得できる。

image

本論文では、Audio Setという巨大かつImbaranceなデータセットを事前学習した。

また、様々なデータセットで

を実験したところ、ほとんどのところでFine Tuneが最も良い精度を示した。