Gerapy / GerapyAutoExtractor

Auto Extractor Module
https://pypi.org/project/gerapy-auto-extractor/
Apache License 2.0
321 stars 79 forks source link

中文detail页面包含英文段落会导致识别准确度下降 #22

Open yjshi2015 opened 2 years ago

yjshi2015 commented 2 years ago

描述 用的是“故宫低调点”的最新页面(见末尾附件),识别的结果为“特别声明”部分,而非文章实际内容。

detail_extract

原因 该部分主要为英文,导致“文本密度”比汉字节点的要高很多,英文的字数统计按照字符,而非单词,比如“hello world”字数为10,而非2,相比中文具有明显的字数优势,因此“文本密度”指标出现偏差,进而影响了节点的最终得分。具体数据如下: img

方案 如果页面以中文为主,那么针对英文段落,其中字数的统计应该跟中文保持一致,标准统一,即按照单词数来统计,而非字符来统计。

我针对number_of_char和number_of_a_char这2个方法,按照如上思路进行了优化,得到了预期结果。如下: img_1

附件 网页源代码,把后缀改为html即可 gugong_detail.txt