carbonz0 / alpaca-chinese-dataset

alpaca中文指令微调数据集
391 stars 24 forks source link

把代码部分还原到原始状态 #5

Open billweasley opened 1 year ago

billweasley commented 1 year ago

Hi 非常感谢翻译数据集,我看了一下有个问题就是代码都被“翻译”了。所以我用下面的关键词搜索一下,花了一个下午手动把不太对的代码翻译都改回去了。当然也许会有遗漏。

billweasley commented 1 year ago

另外想问下是用GPT-4/ChatGPT翻译的吗?如果是的话,可否在prompt里加入不翻译代码的部分。 另外我看了下这个大概是原始数据1/2的量,其它部分还会继续翻译吗?

billweasley commented 1 year ago

Hi 非常感谢翻译数据集,我看了一下有个问题就是代码都被“翻译”了。所以我用下面的关键词搜索一下,花了一个下午手动把不太对的代码翻译都改回去了。当然也许会有遗漏。

  • 代码
  • 函数
  • 程序
  • 脚本
  • Python
  • 蟒蛇
  • Go
  • C++
  • 查询
  • SQL
  • "选择

另外我还把常见的html tag都还原回去了。