HAT: Hardware-Aware Transformers for Efficient Natural Language Processing

Hanrui Wang, Zhanghao Wu, Zhijian Liu, Han Cai, Ligeng Zhu, Chuang Gan, Song Han

2020-05-28

1. どんなもの？

NLPの分野ではTransformer系統のモデルにより大きく精度が向上したが、非常に高い計算コストが必要となるため、RaspberryPi4などのハードウェアの制約が存在する環境では、30単語を処理するのに13GFLOPsと20秒を要する。

こういた問題の原因の1つはTransformerの計算効率を測る指標である。第1にFLOPsは正しくレイテンシを反映しておらず、同一のFLOPsであっても大きくレイテンシは異なる可能性がある。第2に最適なTransformerの構造がハードウェアに依存している点である。

本研究では最適なTransformerの探索時にレイテンシによるフィードバックを利用することで、ハードウェアの制約に従ったモデル探索が可能なHardware-Aware Training (HAT) を提案した。