blmoistawinde / HarvestText

文本挖掘和预处理工具(文本清洗、新词发现、情感分析、实体识别链接、关键词抽取、知识抽取、句法分析等),无监督或弱监督方法
MIT License
2.39k stars 331 forks source link

能支持模型训练吗 #38

Open ran337287 opened 2 years ago

ran337287 commented 2 years ago

自动分段模型训练 用了自己的数据中英文结合的,发现分段效果不太好。请问能支持特定数据的模型训练吗?

blmoistawinde commented 2 years ago

本库实现的自动分段算法texttile不是一个基于机器学习的方法,所以不能支持训练,但是有一些参数可以手动调整,你可以尝试一些调整,看怎么样效果会好些。 这个函数的文档: https://harvesttext.readthedocs.io/en/latest/harvesttext.html?highlight=cut_paragraph#harvesttext.parsing.ParsingMixin.cut_paragraphs image