l0o0 / translators_CN

Zotero translator中文网页抓取翻译器🎉This is Zotero translators for Chinese Sites(beta), not the official Zotero repo
GNU Affero General Public License v3.0
4.08k stars 524 forks source link

请求增加对“北大法宝”的抓取功能 #129

Closed wr42325 closed 9 months ago

wr42325 commented 2 years ago

北大法宝是一个法学类的数据库,里面主要包括各大案例、法规和期刊。 现在用ZOTERO抓取显示的是网页,而不能抓取到对应的各种案例号、法院、文书号等信息,无法自动生成引注样式。

l0o0 commented 2 years ago

北大法宝是一个法学类的数据库,里面主要包括各大案例、法规和期刊。 现在用ZOTERO抓取显示的是网页,而不能抓取到对应的各种案例号、法院、文书号等信息,无法自动生成引注样式。

法宝网站 https://www.pkulaw.com/ 搜索页面截图 image 单个页面展示 image

麻烦同学确认下,是否这些页面

wr42325 commented 2 years ago

是的,就是这个网站。图中是法律法规的界面,“法律法规”旁边还有“司法案例”的裁判文书数据库。这两个是北大法宝最常用的数据库。

l0o0 commented 2 years ago

是的,就是这个网站。图中是法律法规的界面,“法律法规”旁边还有“司法案例”的裁判文书数据库。这两个是北大法宝最常用的数据库。

了解,如果有其他问题,我会在这里咨询

zepinglee commented 2 years ago

“法律”和“司法案例”的字段信息可以参考 https://www.zotero.org/groups/4677213/chinese_csl_development/collections/NDY3L4R7,这是跟《法学引注手册》的示例文献对应的。

wr42325 commented 2 years ago

字段信息已了解。现在的问题是抓取的文件为网页格式,需要自己手动输入各种字段信息。在需要引注大量案例的情况下,十分不便。我想咨询的是能否增加对应的功能,可以使抓取到的判决书自动生成对应的格式,就像从知网上抓取的论文一样。

zepinglee commented 2 years ago

我来试一下实现这个 translator 吧,昨天刚刚开始了解这块。

zepinglee commented 2 years ago

134 增加了北大法宝的转换器,@wr42335 可以帮忙测试一下。

另外有部分功能尚未实现,见 https://github.com/l0o0/translators_CN/pull/134#issue-1401006666

wr42325 commented 2 years ago

我这边好像没法增加这个translator,把js文件复制进文件夹,然后在浏览器更新translator,没什么变化。相反,关闭ZOTERO的translator文件夹之后再打开,复制进去的PKULaw的js文件也会消失。请问这是什么原因呢

wr42325 commented 2 years ago

我指关闭zotero之后,再打开zotero的translator文件夹,里面复制进去的js文件会消失。

zepinglee commented 2 years ago

浏览器更新translator

这一步是怎么操作的?

我是将 PKULaw.js 拷贝到 ~/Zotero/translators 直接重启 Chrome 浏览器,就可以正常使用,不会丢失 .js。

On Oct 8, 2022, at 15:47, wr42325 @. @.>> wrote:

我这边好像没法增加这个translator,把js文件复制进文件夹,然后在浏览器更新translator,没什么变化。相反,关闭ZOTERO的translator文件夹之后再打开,复制进去的PKULaw的js文件也会消失。请问这是什么原因呢

— Reply to this email directly, view it on GitHub https://github.com/l0o0/translators_CN/issues/129#issuecomment-1272256654, or unsubscribe https://github.com/notifications/unsubscribe-auth/AC5YWBSZQA3UPZGTANXJUT3WCERHNANCNFSM6AAAAAAQUUAFSY. You are receiving this because you commented.

wr42325 commented 2 years ago

第一种:拷贝到translators文件夹后,在chrome的zotero插件那右击,进入“选项”,进入“Advanced”,然后点“Update translators”,之后重启chrome和zotero,或者只重启其中一个; 第二种:拷贝到translators文件夹后,直接重启chrome和zotero,或者只重启其中一个。 这两种方法都试了,只要关闭zotero后再打开translators文件夹,其中的js文件就会消失。 而且就算不关闭zotero,进入北大法宝的案例或者法规界面,右上角的zotero插件也没有变化,抓取的还是网页文件。 我不清楚我这边哪里出了问题,您可以换其他机器试试。

wr42325 commented 2 years ago

我看了一下,我这边的translators文件夹是“只读”模式,但是没法把只读模式改掉,去掉“只读”前面的勾选,然后点击“应用”和“确定”,之后再打开translators文件夹的属性栏,依旧是“只读”。但我这边用户权限是已经开了的。不清楚什么情况

pixiandouban commented 2 years ago

@zepinglee 这边测试了testCases 里面的 法律、司法案例、法学几个网页都可以抓取。

问题: 1)、地方法律法规,可能没有匹配,比如 山东省高温天气劳动保护办法 2)、英文版的法律法规,比如 个人所得税法英文版 3)、请求,在 extra/其他 一栏增加 法宝引证码,引证码的值为 CLI.****。

wr42325 commented 2 years ago

你抓取的结果是网页,还是直接在zotero里显示好对应的条目类型和字段信息

zepinglee commented 2 years ago

@zepinglee 这边测试了testCases 里面的 法律、司法案例、法学几个网页都可以抓取。

问题: 1)、地方法律法规,可能没有匹配,比如 山东省高温天气劳动保护办法 2)、英文版的法律法规,比如 个人所得税法英文版

前两个问题可以复现,我稍后改一下。

3)、请求,在 extra/其他 一栏增加 法宝引证码,引证码的值为 CLI.****。

OK。另外 https://www.pkulaw.com/fbm 提供的示例比较有代表性,我再测试一下这几个。

pixiandouban commented 2 years ago

你抓取的结果是网页,还是直接在zotero里显示好对应的条目类型和字段信息

Zotero对应的格式,非网页。你上面那个translator文件夹只读的情况没有遇到,我只是将js文件复制到 translators文件夹,然后更新翻译器就好了。

zepinglee commented 2 years ago

@zepinglee 这边测试了testCases 里面的 法律、司法案例、法学几个网页都可以抓取。

问题: 1)、地方法律法规,可能没有匹配,比如 山东省高温天气劳动保护办法 2)、英文版的法律法规,比如 个人所得税法英文版 3)、请求,在 extra/其他 一栏增加 法宝引证码,引证码的值为 CLI.****。

dfd9318 中修改。

pixiandouban commented 2 years ago

@zepinglee 指导性案例的裁判时间和案号可能需要重新斟酌一下,比如 劳动合同纠纷案,审结日期是 2019.03.04,发布日期 2022.07.04 ,在 Zotero上显示 裁判时间 2022.07.04 ,感觉可能不太妥当。案号是否统一采用非指导案例的格式,而不是指导案例编号?

zepinglee commented 2 years ago

这个主要是为了照顾《法学引注手册》的格式要求,目前对应的 csl 样式 也是这样设计的。不过对于你们法学专业的怎样填写在实际使用中更方便?

Screen Shot 2022-10-09 at 13 02 14

也可以考虑按照统一非指导案例的格式,但是最高人民法院指导案例、指导案例号、发布年份需要填入其他的字段。可能 collection-title, collection-number, available-date 比较合适?

pixiandouban commented 2 years ago

我不是法学专业哈。就按《手册》要求的吧,毕竟指导案例也不是很多。

l0o0 commented 2 years ago

我看了一下,我这边的translators文件夹是“只读”模式,但是没法把只读模式改掉,去掉“只读”前面的勾选,然后点击“应用”和“确定”,之后再打开translators文件夹的属性栏,依旧是“只读”。但我这边用户权限是已经开了的。不清楚什么情况

同学你用户权限是在哪里开的?

Himejima5 commented 2 years ago

也可以考虑按照统一非指导案例的格式,但是最高人民法院指导案例、指导案例号、发布年份需要填入其他的字段。可能 collection-title, collection-number, available-date 比较合适?

将相应信息填入这些字段的确是规范的、合适的,尽管在手动录入条目信息的情况下似乎略为麻烦(且要求用户知道这些字段,这无疑是一个门槛)。 关于指导性案例。最高法目前发布了185个指导性案例,这些案例被引用的频次要比公报案例和普通判决高得多,而绝大部分引用指导性案例的作者最多知道案例的序号(北大法宝中的“案例编号”)和发布年份(“发布日期”),不了解也不必了解案号和裁判日期(“审结日期”)。但@pixiandouban 说得没错,发布日期和审结日期不能混为一谈,案号和案例编号也不能混为一谈。个人赞成修改csl样式。 我在群组文件夹“测试-北大法宝”中添加了《手册》提及的指导性案例和公报案例。在自动抓取条目信息的基础上,我手动修改了extra字段的信息,除了指导性案例所涉及的前述字段外,还将公报案例的来源“最高人民法院公报”由reporter改为publication。

zepinglee commented 2 years ago

将相应信息填入这些字段的确是规范的、合适的,尽管在手动录入条目信息的情况下似乎略为麻烦(且要求用户知道这些字段,这无疑是一个门槛)。 关于指导性案例。最高法目前发布了185个指导性案例,这些案例被引用的频次要比公报案例和普通判决高得多,而绝大部分引用指导性案例的作者最多知道案例的序号(北大法宝中的“案例编号”)和发布年份(“发布日期”),不了解也不必了解案号和裁判日期(“审结日期”)。但@pixiandouban 说得没错,发布日期和审结日期不能混为一谈,案号和案例编号也不能混为一谈。个人赞成修改csl样式。 我在群组文件夹“测试-北大法宝”中添加了《手册》提及的指导性案例和公报案例。在自动抓取条目信息的基础上,我手动修改了extra字段的信息,除了指导性案例所涉及的前述字段外,还将公报案例的来源“最高人民法院公报”由reporter改为publication。

好的,我去同步修改 .csl 样式和这个 translator。

另外“最高人民法院公报”可以直接填在“报告系统”(reporter)字段,而且“Reporter”和“Publication”都是映射到 CSL 的 container-title(见 https://aurimasv.github.io/z2csl/typeMap.xml#map-case),所以对于 CSL 而言是一样的。

zepinglee commented 2 years ago

@Himejima5 除了北大法宝,你们法学专业还常用其他哪些数据库?我想作为参考。

另外司法案例是不是在 https://wenshu.court.gov.cn/ 发布的内容更权威?

wr42325 commented 2 years ago

在右键-属性-安全那里,显示是有“完全控制”权限的

wr42325 commented 2 years ago

还没试过安装其他js.文件

---原始邮件--- 发件人: "Zeping @.> 发送时间: 2022年10月11日(周二) 下午3:07 收件人: @.>; 抄送: @.**@.>; 主题: Re: [l0o0/translators_CN] 请求增加对“北大法宝”的抓取功能 (Issue #129)

Windows 系统吗?那我就不太清楚了。可以试一下删掉整个 translators 目录,重新建一个。

另外你安装 translators_CN 的其他 .js 文件也会这样吗?

> On Oct 8, 2022, at 18:46, wr42325 @. @.>> wrote: > > > 我看了一下,我这边的translators文件夹是“只读”模式,但是没法把只读模式改掉,去掉“只读”前面的勾选,然后点击“应用”和“确定”,之后再打开translators文件夹的属性栏,依旧是“只读”。但我这边用户权限是已经开了的。不清楚什么情况 > > — > Reply to this email directly, view it on GitHub <https://github.com/l0o0/translators_CN/issues/129#issuecomment-1272290742&gt;, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AC5YWBTOHY37PRMCT5R7RHDWCFGHHANCNFSM6AAAAAAQUUAFSY&gt;. > You are receiving this because you commented. >

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

wr42325 commented 2 years ago

裁判文书网不太好用,搜索案例一般用北大法宝。论文中统计裁判文书数据,一般也会以北大法宝中的文书为样本。 还有heinonline查英文法学论文,westlaw数据库用来查国外判例,还有其他的数据库,常用的几个已经有translator了。 不过westlaw classic数据库目前似乎无对应translator,无法直接抓取,现在只有westlaw UK的translator。我提交issue到英文部分translator那边了,还没得到回复。

Himejima5 commented 2 years ago

除了北大法宝,你们法学专业还常用其他哪些数据库?我想作为参考。

https://hao.solegal.cn 这个网站收集了一些常用的中文法律数据库。

另外司法案例是不是在 https://wenshu.court.gov.cn/ 发布的内容更权威?

据个人观察,在撰写论文时,如果需要检索中文法律法规和司法案例,通常会使用北大法宝。律师办案则可能使用无讼( https://www.itslaw.com )、法信( https://www.faxin.cn )等平台。然而就引注而言,需要二次确认正式文本,或者确有必要附上网址的,一般会使用国家法律法规数据库( https://flk.npc.gov.cn )、中国裁判文书网( https://wenshu.court.gov.cn )等官方数据库。

Himejima5 commented 2 years ago

大陆学者常用的我国台湾地区的法学类网站:

法源法律网 https://www.lawbank.com.tw/ 月旦知识库 https://www.lawdata01.com.cn/ 台湾博硕士论文知识加值系统 https://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi?o=d “全国”法规资料库 https://law.moj.gov.tw/ “立法院”法律系统 https://lis.ly.gov.tw/lglawc/lglawkm “中央研究院”法律學研究所 https://www.iias.sinica.edu.tw/

其中最常用的是月旦知识库。

zepinglee commented 2 years ago

了解情况了。

我晚上改一下转换器和 CSL 样式中与“指导性案例”相关的部分。

l0o0 commented 2 years ago

在右键-属性-安全那里,显示是有“完全控制”权限的 图片 我的设置也和你一样,之前一直有少部分同学反馈存在翻译器丢失的情况。一直没找到原因

zepinglee commented 2 years ago

@Himejima5 @wr42325 有几个问题还需要讨论一下。

  1. 法律文件的“2005 年修订”应该填在哪个字段?按照《手册》的要求

    引用经过修改的法律文件,应当注明所引版本的制定、修改年份……

这里的“修订”和“修正”的使用似乎要讲究,所以 CSL 输出时不能直接从“颁布日期”直接生成,所以将“2005 年修订”整体填到 Edition 字段比较合适?

另外还有:

引用已经失效的法律文件,应当予以注明……比如: 《最高人民法院、最高人民检察院关于依法严惩破坏计划生育犯罪活动的通知》(已废止),法发〔1993〕36 号。

这里的“已废止”填到 Status 字段更合适?

  1. 北大法宝的“发文字号”会包括“中华人民共和国主席令第42号”和“法发〔1993〕36号”两种类型,但是《手册》中不引用前者的信息,但是会引用后者的信息,所以如何进行区分?一种方案是,前者的类型设为 statute,后者设为 regulation,缺点是后者需要在 Extra 字段中手动填写 Type: regulation;另一种方案是,前者的发文字号不填在 Public Law Number(映射到 CSL 的 number)字段。
Himejima5 commented 2 years ago

这里的“修订”和“修正”的使用似乎要讲究,所以 CSL 输出时不能直接从“颁布日期”直接生成,所以将“2005 年修订”整体填到 Edition 字段比较合适?

是的。

以下是“修订”和“修正”的区别:

法律修正本又称法律修正文本,是根据全国人大及其常委会关于修改法律的决定作出相应的修改后重新公布的文本;法律修订本又称法律修订文本,是全国人大及其常委会采用“修订”形式修改法律后公布的文本。…… 法律修正本与法律修订本的形式相似,但两者的性质不同:(1)法律修订本是一个独立的法律文件,由全国人大或其常委会通过、主席令公布施行,与法律通过本并无二致;法律修正本从全国人大常委会法工委编写的《中华人民共和国立法释义》一书“修改决定之后附修正本”的表述来看,是修改决定的附件,修正本实际上是法律通过本+历次修改决定综合起来的一个法律文本。(2)法律修订本由主席令直接公布;而法律修正本则由主席令间接公布。(3)法律修订本的生效时间为该修订本重新确定的新的生效时间,各条文的施行时间完全一致;而法律修正本的生效时间仍为法律通过本(即第一次修改前的法律)的生效时间,且条文由于经过历次修正而施行时间也不一致。(4)法律修订本的废止必须经过法定程序;而法律修正本的废止无须经过法定的废止程序,法律的每一次修正,都会产生一个修正本。当法律经过新的修正,根据上一次修改决定重新公布的修正本就自然失效。

以下是“版本”的解释:

法律版本还有更重要的第二种含义,是立法意义上的法律版本,指法律经修改后形成的不同版本。例如,《民事诉讼法》于1991年通过后,又经过2007年、2012年、2017年三次修正,人们通俗地分别称之为1991年版、2007年版、2012年版、2017版《民事诉讼法》。

以上内容引自《如何引用法律》一书,该书作者是最高法直属的出版机构人民法院出版社总编辑助理郭继良。

Himejima5 commented 2 years ago

这里的“已废止”填到 Status 字段更合适?

是的,我也这么觉得。北大法宝的“时效性”标签有“现行有效”“失效”“已被修改”“尚未生效”“部分失效”五种,它们均可以理解为对法律文件效力状态的描述。如果一篇论文对法律法规等规范性文件的历史沿革有所介绍,通常会在正文中使用“原《xx法》”等表述,少数需要注明具体文件名称及条文的,从引注规范上看,需要括注“已失效”等,或者单独写一句话予以说明。

Himejima5 commented 2 years ago

一种方案是,前者的类型设为 statute,后者设为 regulation,缺点是后者需要在 Extra 字段中手动填写 Type: regulation;另一种方案是,前者的发文字号不填在 Public Law Number(映射到 CSL 的 number)字段。

唔,我觉得两种方案都有合理之处。前者很好地区分了法律和其他规范性文件,但操作上有门槛;后者尽管不能进一步区别条目类型,但操作便捷,出错的概率小。法学研究者不会因为抓取的条目类型是“法律”而混淆法律法规和其他规范性文件,但的确可能(应该说,很有可能)不知道或忘记填“其他”字段(这个能反馈一下吗?现代汉语不怎么用“其它”了)。因此我赞成后者!

zepinglee commented 1 year ago

唔,我觉得两种方案都有合理之处。前者很好地区分了法律和其他规范性文件,但操作上有门槛;后者尽管不能进一步区别条目类型,但操作便捷,出错的概率小。法学研究者不会因为抓取的条目类型是“法律”而混淆法律法规和其他规范性文件,但的确可能(应该说,很有可能)不知道或忘记填“其他”字段(这个能反馈一下吗?现代汉语不怎么用“其它”了)。因此我赞成后者!

你的意思是修改 Extra 的中文翻译?

另外正在修改 CSL 样式中,遇到几个 bug 需要先处理一下。

Himejima5 commented 1 year ago

你的意思是修改 Extra 的中文翻译?

是的,《现代汉语词典》提到“其它”同“其他”,且在典范白话文著作中,不用“其它”,一律用“其他”,既指事物,又指人。

zepinglee commented 1 year ago

是的,《现代汉语词典》提到“其它”同“其他”,且在典范白话文著作中,不用“其它”,一律用“其他”,既指事物,又指人。

原来你指的是是这个“它”字,我都没注意到。

Screen Shot 2022-10-17 at 19 25 08

搜了一下还有很多处“其它”,我都统一进行了修改。

yzy1228682367 commented 1 year ago

你好~请问近期还做这个翻译器吗?

jiaojiaodubai commented 9 months ago

在 856f899f6f962b7a2590e6d93c9c31008da556d4 更新了北大法宝的转换器,因为测试量有限而涉及的引注规则又比较多,难免有疏忽的地方,这个issue暂时不关闭,留作反馈错误用吧。

zepinglee commented 9 months ago

856f899 更新了北大法宝的转换器,因为测试量有限而涉及的引注规则又比较多,难免有疏忽的地方,这个issue暂时不关闭,留作反馈错误用吧。

134 已经完成北大法宝,并同步更新了 manual-of-legal-citation-multi-lingual.csl。而且将抓取的文献按照该 CSL 样式输出,与《法学引注手册》做了比对。应该没有大的问题。建议关闭该 issue,有什么问题另开吧。