RUC-GSAI / YuLan-IR

YuLan-IR: Information Retrieval Boosted LMs
MIT License
212 stars 12 forks source link

搜索结果聚合生成时的引用问题 #4

Closed eclipse-du closed 1 year ago

eclipse-du commented 1 year ago

想问下用户搜索一个问题,生成结果有引用的文字(例如【1】),我看sample数据集都是英文的,有中文数据集么?另外测试时中文能生成引用么?如果中文想要加这部分,怎么构建数据集?谢谢

DaoD commented 1 year ago

请问一下您问的是WebBrain还是RETA-LLM?

eclipse-du commented 1 year ago

感谢回复,其实我想问的是both,RETA-LLM我看貌似没有引用,但webBrain貌似有。如果中文没有数据集,后续有这方面的规划么?我在想用翻译数据集或调用chatgpt都不太好,您有什么建议么

DaoD commented 1 year ago

首先,这两个项目走的是两种不同的路线。WebBrain是从模型层面融入检索结果,而RETA-LLM则是用Prompt的方式将检索结果送入大模型中。WebBrain的数据集是全英文的,底层模型是BART-Large,如果有中文数据,可以直接训练模型,从而支持中文。RETA-LLM则取决于大模型自身的中文能力。

关于中文数据集方面我们目前没有什么特别好的解决方案,只能靠自己去收集。

YuLan对中文的支持方面,我们一直在改进,近期也有发布对中文更友好的版本的打算。可以保持关注,谢谢~