Open e4exp opened 3 years ago
エンド・ツー・エンド(E2E)モデルに関する研究は、さまざまな音声認識タスクで有望な結果をもたらしています[5, 6, 7, 8, 9, 10, 11]。 E2Eモデルは,従来の音声認識システムの音響モデル,発音モデル,言語モデルを1つのニューラルネットワークで同時に学習しようとするモデルです. これらのモデルは,学習が単純であることに加えて,通常,従来のシステムに比べてサイズが非常に小さいため[12],オンデバイスでの応用に適している[9, 13, 11]. オンデバイスのE2Eモデルは、特にRNN-Tなどのストリーミングモデルを使用する場合、プライバシーを改善し、認識の待ち時間を短縮できる可能性があります。
RNN-Tをエッジデバイスに導入するための研究が行われています。 関連する課題としては、低レイテンシーの要求と、メモリ制約への対応があります。特に、完全なモデルがハードウェア・アクセラレータのメモリ内に完全に収まらない場合、モデルの小さなパーティションを順次ロードして処理する必要があり、そのようなステップごとに高い固定コストがかかります。 そのため、モデルを小さくすることで、推論の速度を飛躍的に向上させることができます。 そこで本研究では、予測ネットワークと結合ネットワークで構成されるRNN-Tデコーダを、WER性能を犠牲にすることなく、可能な限り小型化し、計算コストを低減する方法を検討しています。 予測ネットワークの複雑さや、与えられる入力の長さを減らす研究は文献にもあります。
1]では,予測ネットワークのLSTMへの入力を2つの履歴音素に制限しても,WERの低下は見られなかった. そのため,学習後,LSTMをサイズ|V|2の高速ルックアップテーブルに変換することが提案されている(Vは出力語彙1). 3-4個の履歴トークンを用いた限定文脈予測ネットワークを採用している他の研究には[3, 15]と[14]がありますが,後者は履歴エンベッディングの上に単なる因果関係のあるConv1D層を使用しているため,トークンの順序情報を省略しています1. また,[2]では,さらに,単一の過去のラベルを条件とし,予測ネットワークをステートレスな埋め込み層として機能させており,低リソース言語での劣化は見られませんでした. しかし、大量の学習データを持つ言語では、相対的なWERの低下が見られる。 これらの研究は、RNN-Tエンコーダのサイズと複雑さが、予測ネットワークのサイズと複雑さよりも、性能にとって重要であることを明確に示しています。 このことは、[16]の調査結果でも裏付けられています。 予測ネットワークをランダムに初期化してフリーズ(学習しない)した場合,完全に学習したベースラインに比べてWERが低下することはありません. 一方で,エンコーダ層を同様にフリーズさせると,性能が大きく低下する.
本研究では,予測ネットワークと結合ネットワークのアーキテクチャを変更することで,フルコンテクストLSTMベースライン[16, 3]との性能差を解消しつつ,より小さなRNN-Tデコーダを使用することを検討した. 予測ネットワークは,履歴とトークンの埋め込みを重み付けして平均化するように設計しました. また,ラベル埋め込み行列をジョイントネットワークの出力層に結びつけていますが,これはLMの一般的な手法に類似しています[4]. 音声検索タスクにおいて,単語レベルのEdit-based Minimum Bayes Risk (EMBR)トレーニング[17][18][19]を利用した場合,提案した tied and reduced RNN-Tデコーダのパラメータ数は2Mであり,23MパラメータのLSTMベースラインデコーダと比較して,精度の低下がないことがわかった. さらに,提案したアーキテクチャは,非再帰的で,高速で,加速器に適しています. 提案したデコーダは,CPU上で推論速度を最大3.7倍に向上させた.
Recurrent Neural Network-Transducer(RNN-T)モデルに関するこれまでの研究では,いくつかの条件の下で,認識精度をほとんど,あるいは全く落とすことなく,予測ネットワークを単純化することができることが示されている[1, 2, 3]. これは,以前のラベルのコンテキストサイズを制限することや,LSTMの代わりに,より単純なアーキテクチャを層に使用することで可能となる. このような変更の利点は,モデルサイズの縮小,推論の高速化,省電力化などであり,これらはすべてオンデバイスアプリケーションに有用である. 本研究では、認識性能を低下させることなく、RNN-Tデコーダ(予測ネットワーク+結合ネットワーク)を小型化・高速化する方法を検討しています。 予測ネットワークは、入力された埋め込み値を単純に加重平均し、その埋め込み行列の重みを結合ネットワークの出力層と共有する(言語モデリングでよく使われる「重み付け」[4]と呼ばれる)。 このシンプルな設計と,EMBR(Edit-based Minimum Bayes Risk)トレーニングを併用することで,単語誤り率(WER)に影響を与えることなく,RNN-Tデコーダのパラメータを23Mからわずか2Mに削減することができました。
索引用語:エンド・ツー・エンド、音声認識、オン・デバイス、限られたメモリ