搜索结果聚合生成时的引用问题

eclipse-du commented 1 year ago

想问下用户搜索一个问题，生成结果有引用的文字（例如【1】），我看sample数据集都是英文的，有中文数据集么？另外测试时中文能生成引用么？如果中文想要加这部分，怎么构建数据集？谢谢

DaoD commented 1 year ago

请问一下您问的是WebBrain还是RETA-LLM？

eclipse-du commented 1 year ago

感谢回复，其实我想问的是both，RETA-LLM我看貌似没有引用，但webBrain貌似有。如果中文没有数据集，后续有这方面的规划么？我在想用翻译数据集或调用chatgpt都不太好，您有什么建议么

DaoD commented 1 year ago

首先，这两个项目走的是两种不同的路线。WebBrain是从模型层面融入检索结果，而RETA-LLM则是用Prompt的方式将检索结果送入大模型中。WebBrain的数据集是全英文的，底层模型是BART-Large，如果有中文数据，可以直接训练模型，从而支持中文。RETA-LLM则取决于大模型自身的中文能力。

关于中文数据集方面我们目前没有什么特别好的解决方案，只能靠自己去收集。

YuLan对中文的支持方面，我们一直在改进，近期也有发布对中文更友好的版本的打算。可以保持关注，谢谢～

RUC-GSAI / YuLan-IR

搜索结果聚合生成时的引用问题 #4