Tied & Reduced RNN-T Decode

1. はじめに

エンド・ツー・エンド（E2E）モデルに関する研究は、さまざまな音声認識タスクで有望な結果をもたらしています[5, 6, 7, 8, 9, 10, 11]。 E2Eモデルは，従来の音声認識システムの音響モデル，発音モデル，言語モデルを1つのニューラルネットワークで同時に学習しようとするモデルです．これらのモデルは，学習が単純であることに加えて，通常，従来のシステムに比べてサイズが非常に小さいため[12]，オンデバイスでの応用に適している[9, 13, 11]．オンデバイスのE2Eモデルは、特にRNN-Tなどのストリーミングモデルを使用する場合、プライバシーを改善し、認識の待ち時間を短縮できる可能性があります。

RNN-Tをエッジデバイスに導入するための研究が行われています。関連する課題としては、低レイテンシーの要求と、メモリ制約への対応があります。特に、完全なモデルがハードウェア・アクセラレータのメモリ内に完全に収まらない場合、モデルの小さなパーティションを順次ロードして処理する必要があり、そのようなステップごとに高い固定コストがかかります。そのため、モデルを小さくすることで、推論の速度を飛躍的に向上させることができます。そこで本研究では、予測ネットワークと結合ネットワークで構成されるRNN-Tデコーダを、WER性能を犠牲にすることなく、可能な限り小型化し、計算コストを低減する方法を検討しています。予測ネットワークの複雑さや、与えられる入力の長さを減らす研究は文献にもあります。

1]では，予測ネットワークのLSTMへの入力を2つの履歴音素に制限しても，WERの低下は見られなかった．そのため，学習後，LSTMをサイズ｜V｜2の高速ルックアップテーブルに変換することが提案されている（Vは出力語彙1）． 3-4個の履歴トークンを用いた限定文脈予測ネットワークを採用している他の研究には[3, 15]と[14]がありますが，後者は履歴エンベッディングの上に単なる因果関係のあるConv1D層を使用しているため，トークンの順序情報を省略しています1．また，[2]では，さらに，単一の過去のラベルを条件とし，予測ネットワークをステートレスな埋め込み層として機能させており，低リソース言語での劣化は見られませんでした．しかし、大量の学習データを持つ言語では、相対的なWERの低下が見られる。これらの研究は、RNN-Tエンコーダのサイズと複雑さが、予測ネットワークのサイズと複雑さよりも、性能にとって重要であることを明確に示しています。このことは、[16]の調査結果でも裏付けられています。予測ネットワークをランダムに初期化してフリーズ（学習しない）した場合，完全に学習したベースラインに比べてWERが低下することはありません．一方で，エンコーダ層を同様にフリーズさせると，性能が大きく低下する．

本研究では，予測ネットワークと結合ネットワークのアーキテクチャを変更することで，フルコンテクストLSTMベースライン[16, 3]との性能差を解消しつつ，より小さなRNN-Tデコーダを使用することを検討した．予測ネットワークは，履歴とトークンの埋め込みを重み付けして平均化するように設計しました．また，ラベル埋め込み行列をジョイントネットワークの出力層に結びつけていますが，これはLMの一般的な手法に類似しています[4]．音声検索タスクにおいて，単語レベルのEdit-based Minimum Bayes Risk (EMBR)トレーニング[17][18][19]を利用した場合，提案した tied and reduced RNN-Tデコーダのパラメータ数は2Mであり，23MパラメータのLSTMベースラインデコーダと比較して，精度の低下がないことがわかった．さらに，提案したアーキテクチャは，非再帰的で，高速で，加速器に適しています．提案したデコーダは，CPU上で推論速度を最大3.7倍に向上させた．

e4exp / paper_manager_abstract

Tied & Reduced RNN-T Decode #643

1. はじめに