Closed Mddct closed 11 months ago
请问,第一阶段训练,通义的embedding是打开的吗?
第一阶段训练时,通义千问LLM的word embedding和对应的output layer参数是freeze的,但是新加入的audio special token的embedding和对应的output layer是unfreeze的。
那为什么看起来第一阶段训练后的正常token的word embedding和qwen-7B的word embedding不一样呢?是用了非官方release的qwen-7B不
请问,第一阶段训练,通义的embedding是打开的吗?