Open long8v opened 1 year ago
paper
트랜스포머의 각 레이어 별 latency
MSA / FFN 각 하이퍼파라미터 변경할 때의 latency 비교
NAS가 서치한 모델 아키텍쳐 구성들
MHA레이어의 개수와 차원을 줄이고, MoE나 FFN을 추가하는 양상.
MoE
search space for NAS
paper
TL;DR
Details
트랜스포머의 각 레이어 별 latency![image](https://user-images.githubusercontent.com/46675408/188034371-070796c9-2cba-46fe-8284-44eb1c5d97dd.png)
MSA / FFN 각 하이퍼파라미터 변경할 때의 latency 비교![image](https://user-images.githubusercontent.com/46675408/188034413-343792ea-f36a-4d6b-8235-6e9c8f798032.png)
NAS가 서치한 모델 아키텍쳐 구성들![image](https://user-images.githubusercontent.com/46675408/188034380-9391629d-6551-4b21-af08-4e811abffa8e.png)
MHA레이어의 개수와 차원을 줄이고, MoE나 FFN을 추가하는 양상.
MoE![image](https://user-images.githubusercontent.com/46675408/188036741-7b5d2c76-a45c-4be8-a7cc-5341fa68cf15.png)
search space for NAS![image](https://user-images.githubusercontent.com/46675408/188036769-8b71ca8e-2166-4431-ba98-e1c2be035ca0.png)