jingfelix / EasySearch

Apache License 2.0
1 stars 1 forks source link

解析来自整本书的输入 #5

Open Leizhenpeng opened 1 year ago

Leizhenpeng commented 1 year ago

对书籍文件的要求:每行一个句子(匹配时按句子为单位返回)

这个太理想了,处理的起点应该是一本书,格式可以暂定txt+pdf

Leizhenpeng commented 1 year ago

测试文件:

刘震云-一日三秋.txt

活着-余华.txt

如何是好.pdf

神雕侠侣.pdf

维罗妮卡决定去死.pdf

Leizhenpeng commented 1 year ago

先章节解析可以在代码层面写死,CC他们包装了一个基于深度学习继续书籍和paper的pdf结构的,后面直接掉API

jingfelix commented 1 year ago

不用做章节解析吧,只要去掉无用信息就行了。

最理想的是每行一个段落,这样查询出结果后可以比较自由地控制返回的长度范围。

Leizhenpeng commented 1 year ago

目标是确保段落的顺序井然有序。

如果有章节划分,那肯定已经保证了段落的次序。 如果没有,采取其他方法来确保段落之间的顺序无误也OK。

jingfelix commented 1 year ago

数据能和 HAMNET 直接共用就好了