wxywb / history_rag

825 stars 108 forks source link

项目依赖的都是白话史料,目前有比较好的文言文翻译/理解的项目吗 #12

Closed qingshui3000 closed 7 months ago

wxywb commented 7 months ago

其实这个事情难点在于retrieval,这里针对于文言文处理会遇见几个问题:

  1. 文言文非常喜欢省略主语,比如“乃令和珅自尽”,这句话就会把嘉庆给漏掉。
  2. 文言文通常只称呼名,比如“表念同为皇族之情“,从这句话中就需要模型能把其推理出表是刘表,从而被召回。
  3. 现代的retrieval 模型大部分都在对其白话文与白话文,白话文与文言文缺乏对齐训练。

一个可以做这件事的方案就是使用LLM根据整段句子将文言文翻译为白话文,由白话文建立检索embedding,检索出来后将文言文返回模型,当然这会花费很多token,所以用白话文就是这种方案的平替。