zepinglee / gbt7714-bibtex-style

GB/T 7714-2015 BibTeX Style
LaTeX Project Public License v1.3c
1.17k stars 196 forks source link

中文标题中的标点符号 `、` 会影响 "等" 与 "et al"的检测以及排序 #26

Closed mohuangrui closed 6 years ago

mohuangrui commented 6 years ago

您好,请问可以测试一下如下问题吗,原始反馈和 bib 来源于国科大的郭伟同学 (bruceguowei@foxmail.com),我进行测试后总结出如下异常规律:

中文标题中的标点符号 会影响 "等" 与 "et al"的检测以及排序:

@article{Baiwenji2000,
    author       = {白文吉 and 周美付 and P.T. Robinson and 方青松 and 张仲明 and 颜秉刚 and 胡旭峰 and 杨经绥},
    key          = {Bai Wen Ji Zhou Mei Fu Ronbinson},
    title        = {西藏罗布莎豆荚状铬铁矿、金刚石及伴生矿物成因 H2O},
    journal      = {科学通报},
    year         = {2012},
    volume       = {57},
    number       = {34},
    pages        = {3219},
}

@proceedings{Zhangliangliang2014,
    title        = {泽当蛇绿岩的组成、时代和成因 CO2},
    author       = {张亮亮 and 刘传周 and 吴福元 and 张畅},
    key          = {Zhang liang liang Liu chuan zhou Wu fu yuan Zhang chang},
    publisher    = {中国地球科学联合学术年会},
    address      = {北京},
    year         = {2014}
}

对于上述 bib,由于 符号,导致作者为 et al. 而不是

image

去掉 符号后, et al. 变为 ,并排序正常:

image

zepinglee commented 6 years ago

应该是语言判断出错了,我去检查一下

zepinglee commented 6 years ago

“、”的 unicode 是 U+3001,UTF-8 编码是 “E3 80 81”,我目前对日语的判断比较粗糙,第一个 byte 等于 E3 就认为是日语了,所以整条文献被判断为日语文献

mohuangrui commented 6 years ago

原来是这样,找出问题根源就太好了,期待你的修复,幸苦了!

zepinglee commented 6 years ago

Fixed in 348d00e356caeb911b8ccf8d26af847fb2652459 .

mohuangrui commented 6 years ago

测试正常,非常感谢如此高效的工作!

zepinglee commented 6 years ago

哈哈,顺便研究了一发 unicode 中 cjk 的编码,https://en.wikipedia.org/wiki/CJK_Unified_Ideographs

dongyu1009 commented 5 years ago

简直神人也。