Closed yspyhp closed 4 months ago
这个应用场景还比较多,比如段落,篇章级别文本的信息抽取(uie)。可以看看TextTiling这种比较经典的文本分割算法
这里有个集成的库:https://github.com/blmoistawinde/HarvestText#%E8%87%AA%E5%8A%A8%E5%88%86%E6%AE%B5
使用TextTiling算法,对没有分段的文本自动分段,或者基于已有段落进一步组织/重新分段。
用的是无监督算法,比较经典,效果一般。 如果有更多现成算法案例也希望大家分享出来
这个应用场景还比较多,比如段落,篇章级别文本的信息抽取(uie)。可以看看TextTiling这种比较经典的文本分割算法
我和你一样有这种需求,抱着试试看的心态找了找答案,感谢dingidng,准备研究下TextTiling这类算法。
问题描述
业务上有一个需求,希望可以根据语义将一个长的文本(比如说一个课程、一段演讲)切割成若干段落,每一个段落都有相对完整的语义,请问paddlenlp目前有这种能力的demo吗