Open Casi11as opened 12 months ago
之后会有技术报告出来的
之后会有技术报告出来的 好的,多谢,会持续关注的
We also are closely paying attention to how to preprocessing code dataset, especially how to handle the dependencies among code file
之后会有技术报告出来的
请问技术报告里包含SFT数据的构造方法吗,以及SFT数据是否开源?顺便问一下技术报告什么时候能出来,很期待👍
请问这部分内容现在有更新吗?
ding 一个
目前第一步数据清洗是与starcoder相同,想学习了解后面是如何过滤掉低质量代码、语法错误或可读性差的代码的。
谢谢!