iapt-platform / mint

rewrite of PCD
MIT License
7 stars 15 forks source link

语料库人工校对勘误 Diṭṭhivisuddhikho #585

Closed VitoVan closed 2 years ago

VitoVan commented 2 years ago

问题:

https://github.com/iapt-platform/mint/blob/ceca2c5b8ff4bb314facb61c1d5cd28e9e791de0/pali_title/73_title.csv#L2172

上面链接内的 Diṭṭhivisuddhikho 是不是应该为 Diṭṭhivisuddhi kho

原因:

htm 文件内是分开的:

https://github.com/iapt-platform/mint/blob/ceca2c5b8ff4bb314facb61c1d5cd28e9e791de0/palihtml/abh01m.mul.htm#L2172

Tipiṭaka 网页版本显示会有问题,粘到了一起:

image

https://www.tipitaka.org/romn/cscd/abh01m.mul3.xml

但是 PDF 版本的是没有问题的:

image

https://www.tipitaka.org/pdf/romn/

Wikipāḷi 的网页版本显示也是没有问题的:

image

https://www.wikipali.org/app/article/index.php?view=chapter&book=73&par=2171&direction=col

后果:

不知道有什么后果,好像会影响搜索?

我计划使用 73_title.csv 和 abh01m.mul.csv 结合起来做 PostgreSQL 的全文检索,如果以 *_title.csv 为准的话,应该会导致搜索结果不准确的问题。

VitoVan commented 2 years ago

问题已解决:

*_title.csv 是以拆分文件为数据拼接的。可能会有问题。应该用拆分文件为数据来源。

也就是应该以 abh01m.mul.csv 这样的文件为准。