Closed Gloridust closed 1 month ago
这个PR旨在提高脚本中教育类域名识别的准确性,并更新项目依赖。当前的实现可能会导致误报,例如将"genshinedu.com"错误地识别为教育类域名。通过使用tldextract库,我们可以更精确地解析URL并正确识别真正的.edu域名。
tldextract
.edu
check_whitelist
这个更改提高了域名识别的准确性,同时保持了对现有白名单规则的兼容性。同时,我们更新了requirements.txt文件以确保所有必要的依赖都能被正确安装。
requirements.txt
@cokice
实际上这么做会有两个问题
目前已将任何包含edu的域名缩小范围到了符合形式.edu(.xx(.xx(...)))
好的👌
提高教育类域名识别的准确性
描述
这个PR旨在提高脚本中教育类域名识别的准确性,并更新项目依赖。当前的实现可能会导致误报,例如将"genshinedu.com"错误地识别为教育类域名。通过使用
tldextract
库,我们可以更精确地解析URL并正确识别真正的.edu
域名。变更内容
tldextract
库来解析URL。check_whitelist
函数,使用tldextract
来准确提取域名组件。.edu
顶级域名才会被识别为教育类域名。额外说明
这个更改提高了域名识别的准确性,同时保持了对现有白名单规则的兼容性。同时,我们更新了
requirements.txt
文件以确保所有必要的依赖都能被正确安装。