DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.42k stars 296 forks source link

交个作业 #24

Open AClolinta opened 11 months ago

AClolinta commented 11 months ago

[answer]: 肺动脉高压会转化成什么? 冠心病

AClolinta commented 11 months ago

我在微调后的模型会出现这个问题. 此外,微调之后的Bleu得分只有0.0017x 反而是只有pretrain的得分有0.002x

感觉是这个参数量的模型完全就是胡言乱语

luhairong11 @.***> 于2023年9月7日周四 17:04写道:

为啥我出来的结果更奇怪呢,虽然我没训练sft模型,只训练pretrain,但应该不至于这样吧

8.064.310.914000010~258010.82001.7.3.1093441.788.738311.2

— Reply to this email directly, view it on GitHub https://github.com/DLLXW/baby-llama2-chinese/issues/24#issuecomment-1709771604, or unsubscribe https://github.com/notifications/unsubscribe-auth/AETEEAKPEHO3EY64MBWF6K3XZGE3DANCNFSM6AAAAAA4OILGZE . You are receiving this because you authored the thread.Message ID: @.***>

luhairong11 commented 11 months ago

我在微调后的模型会出现这个问题. 此外,微调之后的Bleu得分只有0.0017x 反而是只有pretrain的得分有0.002x 感觉是这个参数量的模型完全就是胡言乱语 luhairong11 @.> 于2023年9月7日周四 17:04写道: 为啥我出来的结果更奇怪呢,虽然我没训练sft模型,只训练pretrain,但应该不至于这样吧 [prompt]: 老年骨性关节炎病的发病部位是什么? [answer]: 0100%~300%的3.5004.018.9-0.970.300.430.0.1 8.064.310.914000010~258010.82001.7.3.1093441.788.738311.2 — Reply to this email directly, view it on GitHub <#24 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AETEEAKPEHO3EY64MBWF6K3XZGE3DANCNFSM6AAAAAA4OILGZE . You are receiving this because you authored the thread.Message ID: @.>

多训练了几个epoch后,能正常输出文字了,看来是训练的不够充分

DLLXW commented 11 months ago
  • 交个作业 训出来的模型效果,比较感人,下面是栗子. 不知道作者的模型是否也是这样的
---------------
[prompt]: 自发性幕上脑内出血的手术治疗有些什么?
[answer]:  急性脑内血肿的影像学检查有些什么? 增强检查;头颅CT
---------------

---------------
[prompt]: 请描述口腔黏膜吸收的历史
[answer]:  肺动脉高压会转化成什么? 冠心病
---------------

你应该是把SFT的数据也拼接起来放进去预训练了吧?我data_process.py里面有那一段,sft_to_pretrain()这个函数,不要用这个,这个SFT数据全是医疗问题,如果放进去预训练容易导致最后的模型学崩。

DLLXW commented 11 months ago
  • 交个作业 训出来的模型效果,比较感人,下面是栗子. 不知道作者的模型是否也是这样的
---------------
[prompt]: 自发性幕上脑内出血的手术治疗有些什么?
[answer]:  急性脑内血肿的影像学检查有些什么? 增强检查;头颅CT
---------------

---------------
[prompt]: 请描述口腔黏膜吸收的历史
[answer]:  肺动脉高压会转化成什么? 冠心病
---------------

你应该是把SFT的数据也拼接起来放进去预训练了吧?我data_process.py里面有那一段,sft_to_pretrain()这个函数,不要用这个,这个SFT数据全是医疗问题,如果放进去预训练容易导致最后的模型学崩。

我在微调后的模型会出现这个问题. 此外,微调之后的Bleu得分只有0.0017x 反而是只有pretrain的得分有0.002x 感觉是这个参数量的模型完全就是胡言乱语 luhairong11 @.**> 于2023年9月7日周四 17:04写道: 为啥我出来的结果更奇怪呢,虽然我没训练sft模型,只训练pretrain,但应该不至于这样吧 [prompt]: 老年骨性关节炎病的发病部位是什么? [answer]: 0100%~300%的3.5004.018.9-0.970.300.430.0.1 8.064.310.914000010~258010.82001.7.3.1093441.788.738311.2 — Reply to this email directly, view it on GitHub <#24 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AETEEAKPEHO3EY64MBWF6K3XZGE3DANCNFSM6AAAAAA4OILGZE . You are receiving this because you authored the thread.Message ID: @.**>

多训练了几个epoch后,能正常输出文字了,看来是训练的不够充分

模型参数量太小了,数据也不多,最终的预训练loss也就能刚刚突破3。要想有一定能看的效果,SFT是需要多整几轮的。最好是加大模型,加大数据,效果自然就上去了

Niculuse commented 11 months ago

我在微调后的模型会出现这个问题. 此外,微调之后的Bleu得分只有0.0017x 反而是只有pretrain的得分有0.002x 感觉是这个参数量的模型完全就是胡言乱语 luhairong11 @.***> 于2023年9月7日周四 17:04写道: 你好,eval.py里用的测试数据“track1/train_valid.json”从哪下载的啊?

DLLXW commented 11 months ago

我在微调后的模型会出现这个问题. 此外,微调之后的Bleu得分只有0.0017x 反而是只有pretrain的得分有0.002x 感觉是这个参数量的模型完全就是胡言乱语 luhairong11 @.***> 于2023年9月7日周四 17:04写道: 你好,eval.py里用的测试数据“track1/train_valid.json”从哪下载的啊?

竞赛数据,我没办法开源出来。你可以自己设计一部分或者网上找一部分来评测,不一定非要我这个

AClolinta commented 11 months ago

我在微调后的模型会出现这个问题. 此外,微调之后的Bleu得分只有0.0017x 反而是只有pretrain的得分有0.002x 感觉是这个参数量的模型完全就是胡言乱语 luhairong11 @.***> 于2023年9月7日周四 17:04写道: 你好,eval.py里用的测试数据“track1/train_valid.json”从哪下载的啊?

你可以用med_qa里面的数据

qxj commented 11 months ago

我的评测结果也是胡说八道 ,原始代码和参数没有调整过。

---------------
[prompt]: 冻融自然周期的临床表现有些什么?
[answer]:  基本信息:游戏名称: 游戏《英雄联盟》 游戏类型: 动作冒险游戏
游戏类型: 动作冒险游戏游戏名称: "英雄联盟"
---------------
[prompt]: 睁眼昏迷的诊断是什么?
[answer]:  个人健康检查:如果长期持续的睡眠不足导致焦虑、抑郁、学习或心理问题出现。建议咨询医生或营养师寻求帮助。
---------------
[prompt]: 最好的男子泌尿专科医院,我是上海人。我有一个兄弟得了泌尿方面的疾病。在老家看了许久也积极的配合治疗但是效果一直不是很理想,所以他就寻思是不是医院的医疗水平有限。不能给他治好,所以他就托我问问上海的好医院。
[answer]:  我无法使用手机应用程序:我无法使用手机应用程序。建议您在查找和访问其他应用程序或应用程序中寻找。
---------------
[prompt]: 皮肤鳞状细胞癌的临床表现有些什么?
[answer]:  介绍:对于某些人,例如青光眼患者,没有身体检查能力,或无法进行诊断。他们可能需要进行皮肤测试以发现他们存在皮下脂肪、角质细胞、成纤维质细
胞等异常情况。需要进行进一步评估和治疗。
---------------
[prompt]: 鼻头易红肿疼痛怎么回事
[answer]:  无法通过这些信息得出结论:如果能够采取措施来缓解鼻头疼痛,可以考虑使用药物。例如休息,喝足够的水,避免长时间坐姿以减少压力和增加舒适感。同时,可以考虑使用药物缓解症状,包括增加一些或更多的药物,以减轻症状。
---------------
[prompt]: 前列腺炎影响性功能吗?,医生您好!我最近仔细检查出有慢性前列腺炎,非常苦恼,妻子忧心干扰性功能,您好医生,前列腺炎干扰性功能吗?
[answer]: 交往情感分析方法:在自我判断中,情感分析的目的是为了什么?
---------------
[prompt]: 脑梗塞病人吃什么才好?,脑梗塞病人救治出院后,饮食要留意些什么,要吃些啥子小果呀,蔬菜呀,主食才对别人有帮助
[answer]:  好的,但是我建议您先检查一下你的身体是否有任何问题,如果存在则可以尝试帮助身体和心理状况的改善,如锻炼、睡眠、睡眠等。
---------------
[prompt]: 外伤引起的癫痫平时应该注意什么,  癫痫患者平时应该注意什么?癫痫患者:26岁。外伤引起的癫痫,不喝酒不犯病,喝了酒都是在睡着了后犯病
[answer]:  定义:什么是自闭症,它是一种神经发育障碍,表现症状包括社交互动、情感上的反应、重复性行为和社交能力等。
自闭症是一种神经发育障碍,表现症状包括重复性行为、重复行为与沟通技能之间的转换、重复动作以及重复性行为和兴趣。这种现象被称为全神经系神经病,需要进行更详细的诊断和治疗,可以包括心理治疗、行为治疗和身体治疗等。在处理这个过程中,需要
---------------
[prompt]: 宫颈糜烂做了手术会影响怀孕吗,表妹得了宫颈糜烂,上个月做了手术了,宫颈糜烂做了手术会影响怀孕吗
[answer]:  人物简介::张三,人名,是一名来自中国,拥有创新和创造力,是20世纪80年代和90年代著名的发明家。他的技术非常独特,并因此得到了广泛认可和赞誉。他的成就包括发明了双指.
---------------
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.554 seconds.
Prefix dict has been built successfully.
0.001920652979509171
qxj commented 11 months ago

我的评测结果也是胡说八道 ,原始代码和参数没有调整过。

Building prefix dict from the default dictionary ... Loading model from cache /tmp/jieba.cache Loading model cost 0.554 seconds. Prefix dict has been built successfully. 0.001920652979509171

sft训练了两轮,loss一直在跳变,挺奇怪的

[2023-09-12 20:31:39,647][sft.py][INFO] Epoch:[1/2](49150/50182) loss:2.338 lr:0.0000010 epoch_Time:3.0min:
[2023-09-12 20:31:50,689][sft.py][INFO] Epoch:[1/2](49200/50182) loss:2.494 lr:0.0000010 epoch_Time:3.0min:
[2023-09-12 20:32:01,755][sft.py][INFO] Epoch:[1/2](49250/50182) loss:2.229 lr:0.0000010 epoch_Time:3.0min:
[2023-09-12 20:32:12,807][sft.py][INFO] Epoch:[1/2](49300/50182) loss:2.637 lr:0.0000010 epoch_Time:3.0min:
[2023-09-12 20:32:23,888][sft.py][INFO] Epoch:[1/2](49350/50182) loss:2.191 lr:0.0000010 epoch_Time:3.0min:
[2023-09-12 20:32:34,975][sft.py][INFO] Epoch:[1/2](49400/50182) loss:2.789 lr:0.0000010 epoch_Time:2.0min:
[2023-09-12 20:32:46,030][sft.py][INFO] Epoch:[1/2](49450/50182) loss:2.612 lr:0.0000010 epoch_Time:2.0min:
[2023-09-12 20:32:57,093][sft.py][INFO] Epoch:[1/2](49500/50182) loss:2.490 lr:0.0000010 epoch_Time:2.0min:
[2023-09-12 20:33:08,166][sft.py][INFO] Epoch:[1/2](49550/50182) loss:2.049 lr:0.0000010 epoch_Time:2.0min:
[2023-09-12 20:33:19,235][sft.py][INFO] Epoch:[1/2](49600/50182) loss:2.404 lr:0.0000010 epoch_Time:2.0min:
[2023-09-12 20:33:30,300][sft.py][INFO] Epoch:[1/2](49650/50182) loss:2.496 lr:0.0000010 epoch_Time:2.0min:
[2023-09-12 20:33:41,383][sft.py][INFO] Epoch:[1/2](49700/50182) loss:2.304 lr:0.0000010 epoch_Time:1.0min:
[2023-09-12 20:33:52,453][sft.py][INFO] Epoch:[1/2](49750/50182) loss:2.878 lr:0.0000010 epoch_Time:1.0min:
[2023-09-12 20:34:03,510][sft.py][INFO] Epoch:[1/2](49800/50182) loss:2.142 lr:0.0000010 epoch_Time:1.0min:
[2023-09-12 20:34:14,553][sft.py][INFO] Epoch:[1/2](49850/50182) loss:2.187 lr:0.0000010 epoch_Time:1.0min:
[2023-09-12 20:34:25,613][sft.py][INFO] Epoch:[1/2](49900/50182) loss:2.529 lr:0.0000010 epoch_Time:1.0min:
[2023-09-12 20:34:36,672][sft.py][INFO] Epoch:[1/2](49950/50182) loss:2.860 lr:0.0000010 epoch_Time:0.0min:
[2023-09-12 20:34:47,724][sft.py][INFO] Epoch:[1/2](50000/50182) loss:1.895 lr:0.0000010 epoch_Time:0.0min:
[2023-09-12 20:34:58,784][sft.py][INFO] Epoch:[1/2](50050/50182) loss:2.209 lr:0.0000010 epoch_Time:0.0min:
[2023-09-12 20:35:09,854][sft.py][INFO] Epoch:[1/2](50100/50182) loss:1.910 lr:0.0000010 epoch_Time:0.0min:
[2023-09-12 20:35:20,915][sft.py][INFO] Epoch:[1/2](50150/50182) loss:2.534 lr:0.0000010 epoch_Time:0.0min:
YuzhouPeng commented 10 months ago

我的评测结果也是胡说八道 ,原始代码和参数没有调整过。 Building prefix dict from the default dictionary ... Loading model from cache /tmp/jieba.cache Loading model cost 0.554 seconds. Prefix dict has been built successfully. 0.001920652979509171

sft训练了两轮,loss一直在跳变,挺奇怪的

[2023-09-12 20:31:39,647][sft.py][INFO] Epoch:[1/2](49150/50182) loss:2.338 lr:0.0000010 epoch_Time:3.0min:
[2023-09-12 20:31:50,689][sft.py][INFO] Epoch:[1/2](49200/50182) loss:2.494 lr:0.0000010 epoch_Time:3.0min:
[2023-09-12 20:32:01,755][sft.py][INFO] Epoch:[1/2](49250/50182) loss:2.229 lr:0.0000010 epoch_Time:3.0min:
[2023-09-12 20:32:12,807][sft.py][INFO] Epoch:[1/2](49300/50182) loss:2.637 lr:0.0000010 epoch_Time:3.0min:
[2023-09-12 20:32:23,888][sft.py][INFO] Epoch:[1/2](49350/50182) loss:2.191 lr:0.0000010 epoch_Time:3.0min:
[2023-09-12 20:32:34,975][sft.py][INFO] Epoch:[1/2](49400/50182) loss:2.789 lr:0.0000010 epoch_Time:2.0min:
[2023-09-12 20:32:46,030][sft.py][INFO] Epoch:[1/2](49450/50182) loss:2.612 lr:0.0000010 epoch_Time:2.0min:
[2023-09-12 20:32:57,093][sft.py][INFO] Epoch:[1/2](49500/50182) loss:2.490 lr:0.0000010 epoch_Time:2.0min:
[2023-09-12 20:33:08,166][sft.py][INFO] Epoch:[1/2](49550/50182) loss:2.049 lr:0.0000010 epoch_Time:2.0min:
[2023-09-12 20:33:19,235][sft.py][INFO] Epoch:[1/2](49600/50182) loss:2.404 lr:0.0000010 epoch_Time:2.0min:
[2023-09-12 20:33:30,300][sft.py][INFO] Epoch:[1/2](49650/50182) loss:2.496 lr:0.0000010 epoch_Time:2.0min:
[2023-09-12 20:33:41,383][sft.py][INFO] Epoch:[1/2](49700/50182) loss:2.304 lr:0.0000010 epoch_Time:1.0min:
[2023-09-12 20:33:52,453][sft.py][INFO] Epoch:[1/2](49750/50182) loss:2.878 lr:0.0000010 epoch_Time:1.0min:
[2023-09-12 20:34:03,510][sft.py][INFO] Epoch:[1/2](49800/50182) loss:2.142 lr:0.0000010 epoch_Time:1.0min:
[2023-09-12 20:34:14,553][sft.py][INFO] Epoch:[1/2](49850/50182) loss:2.187 lr:0.0000010 epoch_Time:1.0min:
[2023-09-12 20:34:25,613][sft.py][INFO] Epoch:[1/2](49900/50182) loss:2.529 lr:0.0000010 epoch_Time:1.0min:
[2023-09-12 20:34:36,672][sft.py][INFO] Epoch:[1/2](49950/50182) loss:2.860 lr:0.0000010 epoch_Time:0.0min:
[2023-09-12 20:34:47,724][sft.py][INFO] Epoch:[1/2](50000/50182) loss:1.895 lr:0.0000010 epoch_Time:0.0min:
[2023-09-12 20:34:58,784][sft.py][INFO] Epoch:[1/2](50050/50182) loss:2.209 lr:0.0000010 epoch_Time:0.0min:
[2023-09-12 20:35:09,854][sft.py][INFO] Epoch:[1/2](50100/50182) loss:1.910 lr:0.0000010 epoch_Time:0.0min:
[2023-09-12 20:35:20,915][sft.py][INFO] Epoch:[1/2](50150/50182) loss:2.534 lr:0.0000010 epoch_Time:0.0min:

同样的问题

le0820 commented 10 months ago

我在微调后的模型会出现这个问题. 此外,微调之后的Bleu得分只有0.0017x 反而是只有pretrain的得分有0.002x 感觉是这个参数量的模型完全就是胡言乱语 luhairong11 @.**> 于2023年9月7日周四 17:04写道: 为啥我出来的结果更奇怪呢,虽然我没训练sft模型,只训练pretrain,但应该不至于这样吧 [prompt]: 老年骨性关节炎病的发病部位是什么? [answer]: 0100%~300%的3.5004.018.9-0.970.300.430.0.1 8.064.310.914000010~258010.82001.7.3.1093441.788.738311.2 — Reply to this email directly, view it on GitHub <#24 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AETEEAKPEHO3EY64MBWF6K3XZGE3DANCNFSM6AAAAAA4OILGZE . You are receiving this because you authored the thread.Message ID: @.**>

多训练了几个epoch后,能正常输出文字了,看来是训练的不够充分

想问下您这边说的“正常输出文字”大概是个什么标准呢?是可以输出连贯通顺的文字嘛?

ljg-lixufeng commented 7 months ago
ljg-lixufeng commented 7 months ago

`[prompt]: 请描述口腔黏膜吸收的历史