Closed mohuangrui closed 6 years ago
应该是语言判断出错了,我去检查一下
“、”的 unicode 是 U+3001,UTF-8 编码是 “E3 80 81”,我目前对日语的判断比较粗糙,第一个 byte 等于 E3 就认为是日语了,所以整条文献被判断为日语文献
原来是这样,找出问题根源就太好了,期待你的修复,幸苦了!
Fixed in 348d00e356caeb911b8ccf8d26af847fb2652459 .
测试正常,非常感谢如此高效的工作!
哈哈,顺便研究了一发 unicode 中 cjk 的编码,https://en.wikipedia.org/wiki/CJK_Unified_Ideographs
简直神人也。
您好,请问可以测试一下如下问题吗,原始反馈和 bib 来源于国科大的郭伟同学 (bruceguowei@foxmail.com),我进行测试后总结出如下异常规律:
中文标题中的标点符号
、
会影响 "等" 与 "et al"的检测以及排序:对于上述 bib,由于
、
符号,导致作者为et al.
而不是等
:去掉
、
符号后,et al.
变为等
,并排序正常: