通用数据如何筛选

THUDM / AgentTuning

AgentTuning: Enabling Generalized Agent Abilities for LLMs

https://thudm.github.io/AgentTuning/

1.36k stars 95 forks source link

通用数据如何筛选 #41

Open LuoKaiGSW opened 12 months ago

LuoKaiGSW commented 12 months ago

想问一下，通用数据ShareGPT_Vicuna_unfiltered有9w条，你们是如何筛选到5w条的？能提供一下脚本吗

Dhaizei commented 12 months ago

他们论文中是4：1，3.5和4的数据一起调的，ShareGPT_Vicuna_unfiltered里面并没有提示哪个是3.5和4。ShareGPT_Vicuna_unfiltered中有许多没法直接用的数据，比如开头一定要是human的才行，对话多长等等问题。这个微调的数据量是不是有点少了呢，5W条？？

LuoKaiGSW commented 12 months ago

他们论文中是4：1，3.5和4的数据一起调的，ShareGPT_Vicuna_unfiltered里面并没有提示哪个是3.5和4。ShareGPT_Vicuna_unfiltered中有许多没法直接用的数据，比如开头一定要是human的才行，对话多长等等问题。这个微调的数据量是不是有点少了呢，5W条？？

看论文，作者应该是用的这个数据集，但是我看了这个数据也有9万条，不过是split以后的结果，如果不split的话应该是5万条左右，所以这种条数是指的没有split的数量是吗？

Reason-Wang commented 12 months ago

作者说内部版本对ShareGPT的来源标签，参考 #10 ，这个标签应该是没有公开

Dhaizei commented 11 months ago

你们试了作者开源的agentlm了吗，效果怎么样？？

LuoKaiGSW commented 11 months ago

你们试了作者开源的agentlm了吗，效果怎么样？？

我用论文中提到的构造数据的方式训了一版模型，测试了一下，效果不太稳定

Dhaizei commented 11 months ago

你的效果不太稳定是多少呢？在HH方面怎么样？我是自己训练了，也试用了他们的agentlm-13b

SHITIANYU-hue commented 9 months ago

请问有什么筛选这个数据的思路吗？