Closed jarork closed 2 years ago
苏神keras码我在CMeIE上试过,很容易上60,最高可以62,会不会是RoPE还有损失函数那里或者哪里的细节实现和苏神不一致?
苏神代码底层好像自己写了很多包,比如模型参数的初始化,自定义优化器还有反向传播优化什么的
您好,keras代码在CMeIE的表现我没去试过,62%是提交后的评测结果吗? 如果是,那这2%差距也不小了。 我也认为应该是损失函数的问题(损失函数有个负loss的bug,我issue出来了,也没具体debug)或者优化方式的问题,优化器按照个人习惯训练的。
损失函数有个负loss的bug,我issue出来了,也没具体debug
苏神keras码我在CMeIE上试过,很容易上60,最高可以62,会不会是RoPE还有损失函数那里或者哪里的细节实现和苏神不一致?
苏神代码底层好像自己写了很多包,比如模型参数的初始化,自定义优化器还有反向传播优化什么的