Open yyqi17 opened 1 year ago
想请教一下为什么model/llama.py内构建的LLaMa模型只有Transformer-encoder?后面直接linear输出,这样符合原始llama模型的结构吗?会影响效果吗?谢谢~
model/llama.py
本质上模型结构是一样的,只是里面的attention mask不一样,这里是encoder + causal attention mask,所以没问题的。
想请教一下为什么
model/llama.py
内构建的LLaMa模型只有Transformer-encoder?后面直接linear输出,这样符合原始llama模型的结构吗?会影响效果吗?谢谢~