Closed s0wies0 closed 10 months ago
+1 非常需要抓取「全国报刊索引」的 translator,感谢开发者。
@s0wies0 @TomBener ,已在 PR#236完成,期待反馈。
麻烦你把无VPN状态下的链接发一下,我看看是什么问题
麻烦你把无VPN状态下的链接发一下,我看看是什么问题
我也是同样的情况,安装 translator 后无法抓取网页数据,打开「全国报刊索引」的网页时,Zotero Connector 的图标和之前一样,还是显示为网页。这是一个链接供参考:https://www.cnbksy.com/search/detail/d6e54394c7fd2ccc9d75b5e82ccfb7f6/7/6526888af74f7f88b43eec8b
害,才没过几天,网址从.cn
结尾变成.com
结尾了,我马上修复一下😂。 @s0wies0 @TomBener
已更新域名匹配规则,,现在可用了。 @s0wies0 @TomBener
害,才没过几天,网址从
.cn
结尾变成.com
结尾了,我马上修复一下😂。 @s0wies0 @TomBener
应该是cn和com都有
了解,现在.cn和.com都可以用
了解,现在.cn和.com都可以用
试了新的,还是无法抓取元数据,显示web page with snapshot。
了解,现在.cn和.com都可以用
试了新的,还是无法抓取元数据,显示web page with snapshot。
同样的问题
Connector更新翻译器列表了吗?我这边.cn和.com都可以用的
今天试了一下,成功了,感谢! @jiaojiaodubai
期刊文章没有问题,但是报纸文章无法保存,似乎是没有适配,比如这个链接:https://www.cnbksy.cn/search/detail/ef13605ac1ec8dde947cf758fcec69fef80c8e50300fa7fc6da09d4b229242c7/12/65655553f74f7f4700c9d50c
顺便提一下,「全国报刊索引」上有些期刊文章的页码是有问题的,可能需要在下载 PDF 之后查看正确的页码并在 Zotero 中修改一下。
毕竟写翻译器的时候遇到的样本总是有限的,如果遇到意外,你可以把链接发上来,这样我可以在这个翻译器被合并之前修复它 @TomBener
@jiaojiaodubai 上面这个链接就是一篇报纸文章,无法保存
这也是一篇报纸文章,你可以看看:https://www.cnbksy.com/search/detail/0faa1e9e130dbc077bf77f0141e92b5e54d886bec74027b33b3279acffea4de7/12/6565569023b0997d8a20d704
期刊文章没有问题,但是报纸文章无法保存,似乎是没有适配,比如这个链接:https://www.cnbksy.cn/search/detail/ef13605ac1ec8dde947cf758fcec69fef80c8e50300fa7fc6da09d4b229242c7/12/65655553f74f7f4700c9d50c
我打不开这个链接,你能把题名作者等信息发一下吗?我手动搜索看看
你发的两个报纸链接我都无法打开,可能因为我不是机构用户?除了给我发题名作者等信息帮助我检索之外,你也可以Ctrl + S将网页保存为mhtml
格式然后压缩为.zip
发到评论里。@TomBener
期刊文章没有问题,但是报纸文章无法保存,似乎是没有适配,比如这个链接:cnbksy.cn/search/detail/ef13605ac1ec8dde947cf758fcec69fef80c8e50300fa7fc6da09d4b229242c7/12/65655553f74f7f4700c9d50c
我打不开这个链接,你能把题名作者等信息发一下吗?我手动搜索看看
这是这个链接的信息:
标题1: 新政協籌備會各黨派各團體
标题2: 爲紀念“七七” 抗日戰爭 十二週年 宣言
文献来源: 《东北日报》
出版时间: 1949 年 7 月 7 日
版次: 0001
类别: 通讯
新闻来源: 新華社
新闻发布地: 北平
你试试能不能搜到呢
我搜索不到,看来我并没有这类资源的权限,建议你上传mhtml
文件
@jiaojiaodubai 上传了一个 HTML 文件,你看看可不可以 https://send.vis.ee/download/f20a623fb6656a6a/#wybvfDt7clOwsPx6VvM-xA
@TomBener 更新完毕,支持报纸了,以后抓取异常的页面都可以保存为.mhtml
之后发过来。
我现在比较好奇下面这个页码是什么样的👇,如果你能把样本发来就更好了
顺便提一下,「全国报刊索引」上有些期刊文章的页码是有问题的,可能需要在下载 PDF 之后查看正确的页码并在 Zotero 中修改一下。
@TomBener 更新完毕,支持报纸了,以后抓取异常的页面都可以保存为
.mhtml
之后发过来。 我现在比较好奇下面这个页码是什么样的👇,如果你能把样本发来就更好了顺便提一下,「全国报刊索引」上有些期刊文章的页码是有问题的,可能需要在下载 PDF 之后查看正确的页码并在 Zotero 中修改一下。
好的,非常感谢!
这里的页码问题是指「全国报刊索引」数据库录入的问题,比如一篇文章 PDF 上的页码是 3–8 页,但网页上显示的是 2–7 页。可能是因为这些期刊的年份比较久远,页码不太好校对,或者有些期刊的页码和我们今天使用的页码不一致。
“全国报刊索引”数据库的翻译器(CNBKSY.js
)已经合并到主线,支持茉莉花更新。 @TomBener @s0wies0
https://www.cnbksy.cn/