l0o0 / translators_CN

Zotero translator中文网页抓取翻译器🎉This is Zotero translators for Chinese Sites(beta), not the official Zotero repo
GNU Affero General Public License v3.0
3.98k stars 521 forks source link

中文DOI检索增强 #347

Open jiaojiaodubai opened 1 month ago

jiaojiaodubai commented 1 month ago

你想添加的功能 [必填]

在CNKI、万方中全面支持DOI抓取。

参考资料

学术期刊DOI编码与注册规范 中文DOI指南

待办

jiaojiaodubai commented 1 month ago

@AbeJellinek

DOIs of most Chinese journal articles are registered through China DOI or CNKI DOI, and China DOI has its own resolve page (I am very certain that doi.org sometimes cannot handle Chinese DOIs that point to multiple pages very well). I plan to write a translator for China DOI to assign jump links to the corresponding translator. Should I merge these changes into DOI Content Negotiation.js in the future?

doubanchan commented 1 month ago

发现不少(或很多?)在China DOI上注册的标识符无法在doi.org跳转,非常限制其应用,是不是收费问题?CNKI DOI可以在doi.org跳转,只是多一步跳转。

jiaojiaodubai commented 1 month ago

是的,以前遇到过,最好把这些收集起来放到这个 issue 里,看看它们有什么特征,我们是不是能通过什么方式将这两种区分开来。

doubanchan commented 1 month ago

发现除了“DOI not found”(有可能DOI未注册成功),遇到“DOI CANNOT CONNECT TO SERVER”(大概率连接超时),可能和服务器有关系 另外万方数据(Wanfang data)和中国科学技术信息研究所(ISTIC)的DOI prefix好像数量不是很多,可以列表? 比如中信所的一个DOI前缀10.12286,不过这个前缀有时可以在不同注册机构见转移,比如10.7498,发生频率应该不高。

doubanchan commented 4 weeks ago

发现CNKI有些DOI在Zotero中可以直接通过DOI标识符添加论文,比如DOI:10.16262/j.cnki.1000-8217.2023.06.006

看到DOI Content Negotiation应该是调用了其他的translator,那如果使用万方、CNKI自己的translator应该是比较好。

jiaojiaodubai commented 4 weeks ago

发现CNKI有些DOI在Zotero中可以直接通过DOI标识符添加论文,比如DOI:10.16262/j.cnki.1000-8217.2023.06.006

标识符添加条目是通过 Search Translator 完成的,正如之前提到的,CNKI.js 早已支持 DOI检索。有一些文章注册了英文版的信息,这时会通过 Cross Ref 抓取到英文条目,如果“文库编目”为 “CNKI”,那么就是 CNKI.js 干的。

jiaojiaodubai commented 4 weeks ago

万方数据(Wanfang data)和中国科学技术信息研究所(ISTIC)的DOI prefix好像数量不是很多,可以列表? 比如中信所的一个DOI前缀10.12286,不过这个前缀有时可以在不同注册机构见转移,比如10.7498,发生频率应该不高。

又或许我们不需要在 DOI 层面上区分目标页面,我们完全可以等到页面重定向完毕之后再检测 URL,例子见 DOI Navigation

jiaojiaodubai commented 4 weeks ago

发现CNKI有些DOI在Zotero中可以直接通过DOI标识符添加论文,比如DOI:10.16262/j.cnki.1000-8217.2023.06.006

看到DOI Content Negotiation应该是调用了其他的translator,那如果使用万方、CNKI自己的translator应该是比较好。

这是惯用做法,这就是为什么我在 WeiPu 的 PR#350 里面提到“有标识符时倾向于使用标识符来添加条目,因为它指向出版商”的观点。

我以前以为中文的 DOI 都是知网注册的,所以现在是知网转换器自己调用自己,自从我发现中文 DOI 可能指向其它网站,就提出了这个 issue,为的就是分配 DOI 检索到合适的转换器。我们需要收集足够多的样本,弄清楚中文 DOI 有可能指向什么页面,才能正式开始编写这个转换器。

此外,万方那边需要解决 ProtoBuffer 的问题,否则永远无法处理指向万方 DOI。

doubanchan commented 3 weeks ago

个人观察另外根据数字对象唯一标识符后缀标注规则的解析,基本上期刊的话,就跳转到期刊官网论文页或万方数据库论文页面。万方因为有万方医学,医学文章的多重解析地址有时会提供万方医学的链接。(未区分万方数据与中国科学技术信息研究所(中信所))