Open zerebom opened 3 years ago
src: https://arxiv.org/pdf/1912.10211.pdf 音声認識用NNモデル
画像にはResNet、 MLPではBERTのような汎用的なモデルが有り、これらを巨大なデータセットでfine-tuneするという方法が有用だが、音声認識にはそのようなモデルが今のところない。そこで、このPANNsアーキテクチャを提案した。
PANNs は、短時間フーリエ変換を繰り返して、時間と周波数帯の2軸画像に変換する、log-mel-spectrogramと、 1d-Convから作成するWavegram特徴量をチャネル方向でmergeすることで、リッチな特徴量を獲得できる。
本論文では、Audio Setという巨大かつImbaranceなデータセットを事前学習した。
また、様々なデータセットで
を実験したところ、ほとんどのところでFine Tuneが最も良い精度を示した。
src: https://arxiv.org/pdf/1912.10211.pdf 音声認識用NNモデル
画像にはResNet、 MLPではBERTのような汎用的なモデルが有り、これらを巨大なデータセットでfine-tuneするという方法が有用だが、音声認識にはそのようなモデルが今のところない。そこで、このPANNsアーキテクチャを提案した。
PANNs は、短時間フーリエ変換を繰り返して、時間と周波数帯の2軸画像に変換する、log-mel-spectrogramと、 1d-Convから作成するWavegram特徴量をチャネル方向でmergeすることで、リッチな特徴量を獲得できる。
本論文では、Audio Setという巨大かつImbaranceなデータセットを事前学習した。
また、様々なデータセットで
を実験したところ、ほとんどのところでFine Tuneが最も良い精度を示した。