Open Leizhenpeng opened 1 year ago
对书籍文件的要求:每行一个句子(匹配时按句子为单位返回)
这个太理想了,处理的起点应该是一本书,格式可以暂定txt+pdf
测试文件:
刘震云-一日三秋.txt
活着-余华.txt
如何是好.pdf
神雕侠侣.pdf
维罗妮卡决定去死.pdf
先章节解析可以在代码层面写死,CC他们包装了一个基于深度学习继续书籍和paper的pdf结构的,后面直接掉API
不用做章节解析吧,只要去掉无用信息就行了。
最理想的是每行一个段落,这样查询出结果后可以比较自由地控制返回的长度范围。
目标是确保段落的顺序井然有序。
如果有章节划分,那肯定已经保证了段落的次序。 如果没有,采取其他方法来确保段落之间的顺序无误也OK。
数据能和 HAMNET 直接共用就好了
这个太理想了,处理的起点应该是一本书,格式可以暂定txt+pdf