Open yjshi2015 opened 2 years ago
描述 用的是“故宫低调点”的最新页面(见末尾附件),识别的结果为“特别声明”部分,而非文章实际内容。
原因 该部分主要为英文,导致“文本密度”比汉字节点的要高很多,英文的字数统计按照字符,而非单词,比如“hello world”字数为10,而非2,相比中文具有明显的字数优势,因此“文本密度”指标出现偏差,进而影响了节点的最终得分。具体数据如下:
方案 如果页面以中文为主,那么针对英文段落,其中字数的统计应该跟中文保持一致,标准统一,即按照单词数来统计,而非字符来统计。
我针对number_of_char和number_of_a_char这2个方法,按照如上思路进行了优化,得到了预期结果。如下:
附件 网页源代码,把后缀改为html即可 gugong_detail.txt
描述 用的是“故宫低调点”的最新页面(见末尾附件),识别的结果为“特别声明”部分,而非文章实际内容。
原因 该部分主要为英文,导致“文本密度”比汉字节点的要高很多,英文的字数统计按照字符,而非单词,比如“hello world”字数为10,而非2,相比中文具有明显的字数优势,因此“文本密度”指标出现偏差,进而影响了节点的最终得分。具体数据如下:
方案 如果页面以中文为主,那么针对英文段落,其中字数的统计应该跟中文保持一致,标准统一,即按照单词数来统计,而非字符来统计。
我针对number_of_char和number_of_a_char这2个方法,按照如上思路进行了优化,得到了预期结果。如下:
附件 网页源代码,把后缀改为html即可 gugong_detail.txt