解析来自整本书的输入

jingfelix / EasySearch

Apache License 2.0

1 stars 1 forks source link

Open Leizhenpeng opened 1 year ago

Leizhenpeng commented 1 year ago

对书籍文件的要求：每行一个句子（匹配时按句子为单位返回）

这个太理想了，处理的起点应该是一本书，格式可以暂定txt+pdf

Leizhenpeng commented 1 year ago

测试文件：

Leizhenpeng commented 1 year ago

先章节解析可以在代码层面写死，CC他们包装了一个基于深度学习继续书籍和paper的pdf结构的，后面直接掉API

jingfelix commented 1 year ago

不用做章节解析吧，只要去掉无用信息就行了。

最理想的是每行一个段落，这样查询出结果后可以比较自由地控制返回的长度范围。

Leizhenpeng commented 1 year ago

目标是确保段落的顺序井然有序。

如果有章节划分，那肯定已经保证了段落的次序。如果没有，采取其他方法来确保段落之间的顺序无误也OK。

jingfelix commented 1 year ago

数据能和 HAMNET 直接共用就好了