PaddlePaddle / PaddleNLP

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.
https://paddlenlp.readthedocs.io
Apache License 2.0
12.1k stars 2.94k forks source link

业务上有一个需求,关于文章切割 #6140

Closed yspyhp closed 4 months ago

yspyhp commented 1 year ago

问题描述

业务上有一个需求,希望可以根据语义将一个长的文本(比如说一个课程、一段演讲)切割成若干段落,每一个段落都有相对完整的语义,请问paddlenlp目前有这种能力的demo吗

dingidng commented 1 year ago

这个应用场景还比较多,比如段落,篇章级别文本的信息抽取(uie)。可以看看TextTiling这种比较经典的文本分割算法

这里有个集成的库:https://github.com/blmoistawinde/HarvestText#%E8%87%AA%E5%8A%A8%E5%88%86%E6%AE%B5

使用TextTiling算法,对没有分段的文本自动分段,或者基于已有段落进一步组织/重新分段。

用的是无监督算法,比较经典,效果一般。 如果有更多现成算法案例也希望大家分享出来

dingidng commented 1 year ago

这个应用场景还比较多,比如段落,篇章级别文本的信息抽取(uie)。可以看看TextTiling这种比较经典的文本分割算法

hwb96 commented 1 year ago

我和你一样有这种需求,抱着试试看的心态找了找答案,感谢dingidng,准备研究下TextTiling这类算法。