NON-AUTOREGRESSIVE ASR WITH SELF-CONDITIONED FOLDED ENCODERS

Information

Authors: Tatsuya Komatsu
Organization: LINE
Paper: https://arxiv.org/abs/2202.08474
Code:
Conference/Journal: ICASSP2022

Summary

サマリ図表

どんな論文か？

Automatic Speech Recognition(ASR)における高効率なCTC-basedモデルの提案。Attention with Auto-Regressiveを採用しないのはlatencyが遅いため。CTC-basedで高い精度をマークしているintermediate-CTC, self-conditioned-CTCをベースに、１つのDecoderをIterativeに利用するアーキテクチャとすることで少ないパラメータでも高い精度をマークした。

新規性

Shared Decoderを採用した効率的なネットワーク構造を提案

結果

既存手法と同等の精度を38%のパラメータ数で達成した
Iterationを重ねるほど精度が向上する傾向にあるが、それによってlatencyは改善したのか悪化したのかは言及がない

その他（なぜ通ったか？など）

ベースとなる技術についてのメモ。

intermediate CTCはEncoderの中間層にもClassifierをattachしてCTC-Lossを取る方法
self-conditioned CTCはintermediate CTCの出力(クラス数分のチャンネル)を再度Linear projectionし、EncoderのFeatureに加算する。何の文字かを認識するための特徴を加算した後に、再度Encoderで周囲の特徴を取り込んでDecodeするために精度が上がる。
これらをStacked Encoderで構成していたのが既存研究。層を重ねてStackするのではなく、Shared DecoderをIterativeに使い回して効率化したのが本研究。

AtsukiOsanai / cv_survey

NON-AUTOREGRESSIVE ASR WITH SELF-CONDITIONED FOLDED ENCODERS #84