wangyuxinwhy / uniem

unified embedding model
Apache License 2.0
814 stars 61 forks source link

请教一下怎么快速构造领域数据的训练样本 #92

Open QQR1 opened 1 year ago

QQR1 commented 1 year ago

🚀 The feature

感谢作者优秀的工作! 请教一下作者在构造2kw训练语料的经验,如何快速构造有监督训练语料

wangyuxinwhy commented 1 year ago

监督的训练语料都是来源于开源数据集,明确了具体任务后,可以在开放的数据平台比如 HuggingFace 上,按照标签进行筛选。另外的思路可以通过 GPT4 来帮助构造数据集。