cokice / List-of-genshin-University

原神高校联盟清单
237 stars 148 forks source link

Fix edu domain detection mechanism #154

Closed Gloridust closed 1 month ago

Gloridust commented 1 month ago

提高教育类域名识别的准确性

描述

这个PR旨在提高脚本中教育类域名识别的准确性,并更新项目依赖。当前的实现可能会导致误报,例如将"genshinedu.com"错误地识别为教育类域名。通过使用tldextract库,我们可以更精确地解析URL并正确识别真正的.edu域名。

变更内容

  1. 引入tldextract库来解析URL。
  2. 修改check_whitelist函数,使用tldextract来准确提取域名组件。
  3. 更新了对"edu"域名的检查逻辑,现在只有真正的.edu顶级域名才会被识别为教育类域名。
  4. 保持了对白名单中其他模式的支持。

额外说明

这个更改提高了域名识别的准确性,同时保持了对现有白名单规则的兼容性。同时,我们更新了requirements.txt文件以确保所有必要的依赖都能被正确安装。

Gloridust commented 1 month ago

@cokice

CarlGao4 commented 1 month ago

实际上这么做会有两个问题

  1. 国内很多学校是.edu.cn,这样会漏掉这些域名
  2. 既然都已经用正则表达式了,那就都用正则表达式解决吧

目前已将任何包含edu的域名缩小范围到了符合形式.edu(.xx(.xx(...)))

Gloridust commented 1 month ago

好的👌