OpenBMB / MiniCPM

MiniCPM3-4B: An edge-side LLM that surpasses GPT-3.5-Turbo.
Apache License 2.0
6.71k stars 426 forks source link

tech-report 疑问 #85

Closed ericxsun closed 2 months ago

ericxsun commented 6 months ago

Description / 描述

tech report 有这个实验,

WeChatWorkScreenshot_30a13bbd-4952-4145-aac4-60a572f6bab0

那有对比过这样的效果吗

A0 预训练数据退火 B0 预训练数据+SFT数据退火

A1 预训练数据退火 + 4B sft B1 预训练数据+SFT数据退火 -> 4B sft

Case Explaination / 案例解释

No response

LDLINGLINGLING commented 2 months ago

我们博客中的实验是您所述的第二种实验, 对于您第一种实验: A0 预训练数据退火 B0 预训练数据+SFT数据退火 这种情况我个人感觉意义不大,因为模型最终总要进行sft,不进行sft就靠以上阶段应该是不可用的。