THUDM / AgentTuning

AgentTuning: Enabling Generalized Agent Abilities for LLMs
https://thudm.github.io/AgentTuning/
1.36k stars 95 forks source link

通用数据如何筛选 #41

Open LuoKaiGSW opened 12 months ago

LuoKaiGSW commented 12 months ago

想问一下,通用数据ShareGPT_Vicuna_unfiltered有9w条,你们是如何筛选到5w条的?能提供一下脚本吗

Dhaizei commented 12 months ago

他们论文中是4:1,3.5和4的数据一起调的,ShareGPT_Vicuna_unfiltered里面并没有提示哪个是3.5和4。ShareGPT_Vicuna_unfiltered中有许多没法直接用的数据,比如开头一定要是human的才行,对话多长等等问题。 这个微调的数据量是不是有点少了呢,5W条??

LuoKaiGSW commented 12 months ago

他们论文中是4:1,3.5和4的数据一起调的,ShareGPT_Vicuna_unfiltered里面并没有提示哪个是3.5和4。ShareGPT_Vicuna_unfiltered中有许多没法直接用的数据,比如开头一定要是human的才行,对话多长等等问题。 这个微调的数据量是不是有点少了呢,5W条??

看论文,作者应该是用的这个数据集,但是我看了这个数据也有9万条,不过是split以后的结果,如果不split的话应该是5万条左右,所以这种条数是指的没有split的数量是吗?

Reason-Wang commented 12 months ago

作者说内部版本对ShareGPT的来源标签,参考 #10 ,这个标签应该是没有公开

Dhaizei commented 11 months ago

你们试了作者开源的agentlm了吗,效果怎么样??

LuoKaiGSW commented 11 months ago

你们试了作者开源的agentlm了吗,效果怎么样??

我用论文中提到的构造数据的方式训了一版模型,测试了一下,效果不太稳定

Dhaizei commented 11 months ago

你的效果不太稳定是多少呢?在HH方面怎么样?我是自己训练了,也试用了他们的agentlm-13b

SHITIANYU-hue commented 9 months ago

请问有什么筛选这个数据的思路吗?