Closed gaowenxin95 closed 4 years ago
你好,你对于原始的texttiling算法的理解是非常精准的,它确实不依赖于标点,而是依赖于多个字符数目固定的序列组成块来计算相似度。
不过,在本库之前的实现里,我使用了句子来代替字符数目固定的序列,这样使得语义上更加清晰,且省去了设置参数的麻烦。不过也是因此,默认设定下的算法不支持没有标点的文本。之前的设计中也没有考虑到这种使用场景。
不过既然确实有这样的需要的话,我更新了一下,加了一个新参数设定来还原原始的设置,可以通过把seq_chars
设置为一正整数,来使用原始论文的设置(固定字数数目的序列),为没有标点的文本来进行分段。如果也没有段落换行标记,请设置align_boundary=False
。例见examples/basic.py
中的cut_paragraph()
:
print("去除标点以后的分段")
text2 = extract_only_chinese(text)
predicted_paras2 = ht0.cut_paragraphs(text2, num_paras=5, seq_chars=10, align_boundary=False)
print("\n".join(predicted_paras2)+"\n")
去除标点以后的分段
备受社会关注的湖南常德滴滴司机遇害案将于月日时许在汉寿县人民法院开庭审理此前犯罪嫌疑人岁大学生杨某淇被鉴定为作案时患有抑郁症为有
限定刑事责任能力新京报此前报道年
月日凌晨滴滴司机陈师
傅搭载岁大学生杨某淇到常南汽车总站附近坐在后排的杨某淇趁陈某不备朝陈某连捅数刀致其死亡事发监控显示杨某淇杀人后下车离开随后杨某淇
到公安机关自首并供述称因悲观厌世精神崩溃无故将司机杀害据杨某淇就读学校的工作人员称他家有四口人姐姐是聋哑人今日上午田女士告诉新京
报记者明日开庭时间不变此前已提出刑事附带民事赔偿但通过与法院的沟通后获知对方父母已经没有赔偿的意愿当时按照人身死亡赔偿金计算共计
多万元那时也想考虑对方家庭的经济状况田女士说她相信法律对最后的结果也做好心理准备对方一家从未道歉此前庭前会议中对方提
出了嫌疑人杨某淇作案时患有抑郁症的辩护意见另具警方出具的鉴定书显示嫌疑人作案时有限定刑事责任能力新京
报记者从陈师傅的家属处获知陈师傅有两个儿子大儿子今年岁小儿子还不到岁这对我来说是一起悲剧对我们生活的影响肯定是很大的田女士告诉新
京报记者丈夫遇害后他们一家的主劳动力没有了她自己带着两个孩子和两个老人一起过生活很艰辛她说还好有妹妹的陪伴现在已经好些了
由于算法的局限性,在没有句子边界和段落边界线索的情况下,其表现可能不太尽如人意。但还是希望这个实现能够提供一些启发~
你好,你对于原始的texttiling算法的理解是非常精准的,它确实不依赖于标点,而是依赖于多个字符数目固定的序列组成块来计算相似度。
不过,在本库之前的实现里,我使用了句子来代替字符数目固定的序列,这样使得语义上更加清晰,且省去了设置参数的麻烦。不过也是因此,默认设定下的算法不支持没有标点的文本。之前的设计中也没有考虑到这种使用场景。
不过既然确实有这样的需要的话,我更新了一下,加了一个新参数设定来还原原始的设置,可以通过把
seq_chars
设置为一正整数,来使用原始论文的设置(固定字数数目的序列),为没有标点的文本来进行分段。如果也没有段落换行标记,请设置align_boundary=False
。例见examples/basic.py
中的cut_paragraph()
:print("去除标点以后的分段") text2 = extract_only_chinese(text) predicted_paras2 = ht0.cut_paragraphs(text2, num_paras=5, seq_chars=10, align_boundary=False) print("\n".join(predicted_paras2)+"\n")
去除标点以后的分段 备受社会关注的湖南常德滴滴司机遇害案将于月日时许在汉寿县人民法院开庭审理此前犯罪嫌疑人岁大学生杨某淇被鉴定为作案时患有抑郁症为有 限定刑事责任能力新京报此前报道年 月日凌晨滴滴司机陈师 傅搭载岁大学生杨某淇到常南汽车总站附近坐在后排的杨某淇趁陈某不备朝陈某连捅数刀致其死亡事发监控显示杨某淇杀人后下车离开随后杨某淇 到公安机关自首并供述称因悲观厌世精神崩溃无故将司机杀害据杨某淇就读学校的工作人员称他家有四口人姐姐是聋哑人今日上午田女士告诉新京 报记者明日开庭时间不变此前已提出刑事附带民事赔偿但通过与法院的沟通后获知对方父母已经没有赔偿的意愿当时按照人身死亡赔偿金计算共计 多万元那时也想考虑对方家庭的经济状况田女士说她相信法律对最后的结果也做好心理准备对方一家从未道歉此前庭前会议中对方提 出了嫌疑人杨某淇作案时患有抑郁症的辩护意见另具警方出具的鉴定书显示嫌疑人作案时有限定刑事责任能力新京 报记者从陈师傅的家属处获知陈师傅有两个儿子大儿子今年岁小儿子还不到岁这对我来说是一起悲剧对我们生活的影响肯定是很大的田女士告诉新 京报记者丈夫遇害后他们一家的主劳动力没有了她自己带着两个孩子和两个老人一起过生活很艰辛她说还好有妹妹的陪伴现在已经好些了
由于算法的局限性,在没有句子边界和段落边界线索的情况下,其表现可能不太尽如人意。但还是希望这个实现能够提供一些启发~
多谢啊,按照您的参数设置,我这边ok了
@gaowenxin95 我觉得也没问题,我看到过 BRNN 的作者 Schuster and Paliwal (1997) 对这样的序列特征也是直接切分的,我们尝试下多个 segment 的情况,看看哪个效果好?
Schuster, M., and K. K. Paliwal. 1997. “Bidirectional Recurrent Neural Networks.” IEEE Transactions on Signal Processing 45 (11): 2673–81.
您好,我这边有个样本数据没有任何标点,主要是因为实际中给的数据就没有标点,使用这里介绍的方法基本没有分出来段,texttilling这个方法我记得原作者是基于字的个数去进行相似度计算的,而不是标点?
@Sean16SYSU @blmoistawinde @JiaxiangBU
结果的话我这边放个图,也就是还是1段,没有分出来