l0o0 / translators_CN

Zotero translator中文网页抓取翻译器🎉This is Zotero translators for Chinese Sites(beta), not the official Zotero repo
GNU Affero General Public License v3.0
4.11k stars 525 forks source link

建议增加“全国报刊索引”数据库的翻译器 #235

Closed s0wies0 closed 10 months ago

s0wies0 commented 11 months ago

https://www.cnbksy.cn/

TomBener commented 11 months ago

+1 非常需要抓取「全国报刊索引」的 translator,感谢开发者。

jiaojiaodubai commented 11 months ago

@s0wies0 @TomBener ,已在 PR#236完成,期待反馈。

s0wies0 commented 11 months ago

@s0wies0 @TomBener ,已在 PR#236完成,期待反馈。

好迅速!谢谢!

s0wies0 commented 11 months ago

@s0wies0 @TomBener ,已在 PR#236完成,期待反馈。

在vpn和非vpn状态下都试了,无法抓取元数据

jiaojiaodubai commented 11 months ago

麻烦你把无VPN状态下的链接发一下,我看看是什么问题

TomBener commented 11 months ago

麻烦你把无VPN状态下的链接发一下,我看看是什么问题

我也是同样的情况,安装 translator 后无法抓取网页数据,打开「全国报刊索引」的网页时,Zotero Connector 的图标和之前一样,还是显示为网页。这是一个链接供参考:https://www.cnbksy.com/search/detail/d6e54394c7fd2ccc9d75b5e82ccfb7f6/7/6526888af74f7f88b43eec8b

jiaojiaodubai commented 11 months ago

害,才没过几天,网址从.cn结尾变成.com结尾了,我马上修复一下😂。 @s0wies0 @TomBener

jiaojiaodubai commented 11 months ago

已更新域名匹配规则,,现在可用了。 @s0wies0 @TomBener image

s0wies0 commented 11 months ago

害,才没过几天,网址从.cn结尾变成.com结尾了,我马上修复一下😂。 @s0wies0 @TomBener

应该是cn和com都有

s0wies0 commented 11 months ago

https://www.cnbksy.cn/search/detail/f9c51bbf31e9031ae11a823b51c4dc53/7/656448447fa00c4f55b4eaae

jiaojiaodubai commented 11 months ago

了解,现在.cn和.com都可以用

s0wies0 commented 11 months ago

了解,现在.cn和.com都可以用

试了新的,还是无法抓取元数据,显示web page with snapshot。

TomBener commented 11 months ago

了解,现在.cn和.com都可以用

试了新的,还是无法抓取元数据,显示web page with snapshot。

同样的问题

jiaojiaodubai commented 11 months ago

Connector更新翻译器列表了吗?我这边.cn和.com都可以用的 image

TomBener commented 11 months ago

今天试了一下,成功了,感谢! @jiaojiaodubai

期刊文章没有问题,但是报纸文章无法保存,似乎是没有适配,比如这个链接:https://www.cnbksy.cn/search/detail/ef13605ac1ec8dde947cf758fcec69fef80c8e50300fa7fc6da09d4b229242c7/12/65655553f74f7f4700c9d50c

顺便提一下,「全国报刊索引」上有些期刊文章的页码是有问题的,可能需要在下载 PDF 之后查看正确的页码并在 Zotero 中修改一下。

jiaojiaodubai commented 11 months ago

毕竟写翻译器的时候遇到的样本总是有限的,如果遇到意外,你可以把链接发上来,这样我可以在这个翻译器被合并之前修复它 @TomBener

TomBener commented 11 months ago

@jiaojiaodubai 上面这个链接就是一篇报纸文章,无法保存

这也是一篇报纸文章,你可以看看:https://www.cnbksy.com/search/detail/0faa1e9e130dbc077bf77f0141e92b5e54d886bec74027b33b3279acffea4de7/12/6565569023b0997d8a20d704

jiaojiaodubai commented 11 months ago

期刊文章没有问题,但是报纸文章无法保存,似乎是没有适配,比如这个链接:https://www.cnbksy.cn/search/detail/ef13605ac1ec8dde947cf758fcec69fef80c8e50300fa7fc6da09d4b229242c7/12/65655553f74f7f4700c9d50c

我打不开这个链接,你能把题名作者等信息发一下吗?我手动搜索看看

jiaojiaodubai commented 11 months ago

你发的两个报纸链接我都无法打开,可能因为我不是机构用户?除了给我发题名作者等信息帮助我检索之外,你也可以Ctrl + S将网页保存为mhtml格式然后压缩为.zip发到评论里。@TomBener

image

TomBener commented 11 months ago

期刊文章没有问题,但是报纸文章无法保存,似乎是没有适配,比如这个链接:cnbksy.cn/search/detail/ef13605ac1ec8dde947cf758fcec69fef80c8e50300fa7fc6da09d4b229242c7/12/65655553f74f7f4700c9d50c

我打不开这个链接,你能把题名作者等信息发一下吗?我手动搜索看看

这是这个链接的信息:

标题1:    新政協籌備會各黨派各團體
标题2:    爲紀念“七七” 抗日戰爭 十二週年 宣言
文献来源:   《东北日报》
出版时间:   1949 年 7 月 7 日
版次: 0001
类别: 通讯
新闻来源:   新華社
新闻发布地:  北平

你试试能不能搜到呢

jiaojiaodubai commented 11 months ago

我搜索不到,看来我并没有这类资源的权限,建议你上传mhtml文件 image

TomBener commented 11 months ago

@jiaojiaodubai 上传了一个 HTML 文件,你看看可不可以 https://send.vis.ee/download/f20a623fb6656a6a/#wybvfDt7clOwsPx6VvM-xA

jiaojiaodubai commented 11 months ago

@TomBener 更新完毕,支持报纸了,以后抓取异常的页面都可以保存为.mhtml之后发过来。 我现在比较好奇下面这个页码是什么样的👇,如果你能把样本发来就更好了

顺便提一下,「全国报刊索引」上有些期刊文章的页码是有问题的,可能需要在下载 PDF 之后查看正确的页码并在 Zotero 中修改一下。

TomBener commented 11 months ago

@TomBener 更新完毕,支持报纸了,以后抓取异常的页面都可以保存为.mhtml之后发过来。 我现在比较好奇下面这个页码是什么样的👇,如果你能把样本发来就更好了

顺便提一下,「全国报刊索引」上有些期刊文章的页码是有问题的,可能需要在下载 PDF 之后查看正确的页码并在 Zotero 中修改一下。

好的,非常感谢!

这里的页码问题是指「全国报刊索引」数据库录入的问题,比如一篇文章 PDF 上的页码是 3–8 页,但网页上显示的是 2–7 页。可能是因为这些期刊的年份比较久远,页码不太好校对,或者有些期刊的页码和我们今天使用的页码不一致。

jiaojiaodubai commented 11 months ago

“全国报刊索引”数据库的翻译器(CNBKSY.js)已经合并到主线,支持茉莉花更新。 @TomBener @s0wies0