Open LuoKaiGSW opened 12 months ago
他们论文中是4:1,3.5和4的数据一起调的,ShareGPT_Vicuna_unfiltered里面并没有提示哪个是3.5和4。ShareGPT_Vicuna_unfiltered中有许多没法直接用的数据,比如开头一定要是human的才行,对话多长等等问题。 这个微调的数据量是不是有点少了呢,5W条??
他们论文中是4:1,3.5和4的数据一起调的,ShareGPT_Vicuna_unfiltered里面并没有提示哪个是3.5和4。ShareGPT_Vicuna_unfiltered中有许多没法直接用的数据,比如开头一定要是human的才行,对话多长等等问题。 这个微调的数据量是不是有点少了呢,5W条??
看论文,作者应该是用的这个数据集,但是我看了这个数据也有9万条,不过是split以后的结果,如果不split的话应该是5万条左右,所以这种条数是指的没有split的数量是吗?
作者说内部版本对ShareGPT的来源标签,参考 #10 ,这个标签应该是没有公开
你们试了作者开源的agentlm了吗,效果怎么样??
你们试了作者开源的agentlm了吗,效果怎么样??
我用论文中提到的构造数据的方式训了一版模型,测试了一下,效果不太稳定
你的效果不太稳定是多少呢?在HH方面怎么样?我是自己训练了,也试用了他们的agentlm-13b
请问有什么筛选这个数据的思路吗?
想问一下,通用数据ShareGPT_Vicuna_unfiltered有9w条,你们是如何筛选到5w条的?能提供一下脚本吗