Open jingfelix opened 1 year ago
参考 https://github.com/blmoistawinde/HarvestText 加入了一个使用正则表达式进行分句的函数。
和 spacy 的分句效果对比了一下:spacy 分句的效果更好,当耗时较长,不太能做成同步处理。
也许可以不用于上传 txt 后的处理,只用于处理 query 的 prompt.
test3.txt: spacy test3.txt
test2.txt: HarvestText test2.txt
为了保证用户体验,后面会有一个角色-书本电子化的「校对编辑」 预处理效果优先~
prompt这边的分词对性能要求更高,可以尝试此feature
参考 https://github.com/blmoistawinde/HarvestText 加入了一个使用正则表达式进行分句的函数。
和 spacy 的分句效果对比了一下:spacy 分句的效果更好,当耗时较长,不太能做成同步处理。
也许可以不用于上传 txt 后的处理,只用于处理 query 的 prompt.
test3.txt: spacy test3.txt
test2.txt: HarvestText test2.txt