Open xuhai1 opened 11 months ago
s_layers配置[3,2,1]表示:
在第1层到第3层使用Sparse Self-attention机制,每层具有3个Self-attention头。 在第4层到第5层使用Sparse Self-attention机制,每层具有2个Self-attention头。 在第6层使用Sparse Self-attention机制,具有1个Self-attention头。
s_layers配置[3,2,1]表示:
在第1层到第3层使用Sparse Self-attention机制,每层具有3个Self-attention头。 在第4层到第5层使用Sparse Self-attention机制,每层具有2个Self-attention头。 在第6层使用Sparse Self-attention机制,具有1个Self-attention头。