PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition

画像にはResNet、 MLPではBERTのような汎用的なモデルが有り、これらを巨大なデータセットでfine-tuneするという方法が有用だが、音声認識にはそのようなモデルが今のところない。そこで、このPANNsアーキテクチャを提案した。

PANNs は、短時間フーリエ変換を繰り返して、時間と周波数帯の2軸画像に変換する、log-mel-spectrogramと、 1d-Convから作成するWavegram特徴量をチャネル方向でmergeすることで、リッチな特徴量を獲得できる。

本論文では、Audio Setという巨大かつImbaranceなデータセットを事前学習した。

また、様々なデータセットで

を実験したところ、ほとんどのところでFine Tuneが最も良い精度を示した。

zerebom / paper-books