cobaltdisco / Google-Chinese-Results-Blocklist

我终于能用谷歌搜中文了……
7.45k stars 278 forks source link

如何屏蔽“小搭百科网”? #50

Closed bcaso closed 2 years ago

bcaso commented 2 years ago

小搭百科网的真实地址是 https://g.penzai.com/

但是其有数十个,.com, .buzz 域名,全部重定向到 https://g.penzai.com/

目前发现的域名有:

一个个的手动添加太烦索,且说不定他注册的域名不久后就被“正常的”所用了,还造成了误屏蔽。

求支招。

xcsnowcity commented 2 years ago

我也发现了,搜索结果里经常出来这玩意

tjsky commented 2 years ago

title/.* - 小.百科网/

自用规则供参考,只要叫《小X百科网》的都会被屏蔽

bcaso commented 2 years ago

title/.* - 小.百科网/

自用规则供参考,只要叫《小X百科网》的都会被屏蔽

经测试,这条规则在搜索 intitle:"小搭百科网" 时,没有效果,小搭百科网还在。

image

用这个规则可以:title/小.百科网/

搜索结果直接消失了: image

点击 Show后显示这条规规会把所有包含 《小X科百科网》的都屏蔽掉。

image

猜测,title 的具体用法:title/正则表达式/, 只作用于搜索结果的标题而非链接地址。

在插件中也有说明: image

三种屏蔽方式: (1)* 通配符 (2)/正则表达式/ (3)title/正则表达式/

tjsky commented 2 years ago

我这样写规则,是因为: 我需要屏蔽的是,当搜索一个问题时,看到这些小X百科网的结果。 _20212129112114 这种情况下这些小X百科网会被索引到的标题是 《相关关键词 - 小X百科网》类似下图 _20211229111233 所以规则被设定为监测【文字 - 小X百科网】类似这样结构标题的网页,从而在日常搜索时可以得到如下图的搜索结果 _20212329112300

而当你去限定网页标题为“小X百科网”时,这样确实是无效的,我不认为这种情况需要被屏蔽,这些结果只会在直接搜名字时才会出现,应该没人会直接搜这些抓取站的名字 _20211329111310

tjsky commented 2 years ago

写规则的思路就是上边的这个思路, 你的理解是没有错的title/针对网页标题的正则表达式/ 设定为过滤所有含有《小X百科网》这5个字的网页的话,规则会有些宽泛, 本着最小化封锁范围的原则,我写成了title/.* - 小.百科网/

tjsky commented 2 years ago

好吧,我发现这些百科网,还有个分身叫《小X知识网》 规则还是写成title/.* - 小.(百科|知识)网/或者title/小.(百科|知识)网/更好一点

tjsky commented 2 years ago

他们还有另一种被索引网页标题的特征: 16-20字符(一个汉字是2字符)_16-20字符16-20字符 我测试用这个特征去屏蔽,但是存在误伤。 `title/.{8,20}.{8,20}_.{8,20}/`

Nihosijie commented 2 years ago

以前都是ublocklist手动加入黑名单,今天怒而找规则,希望有用。

cobaltdisco commented 2 years ago

感谢 @tjsky 提供规则,目前已经更新上。

Kukuair commented 2 years ago

https://support.google.com/webmasters/thread/130000912/google-%E4%B8%AD%E6%96%87%E6%90%9C%E7%B4%A2%E7%BB%93%E6%9E%9C%E4%B8%AD%E5%AD%98%E5%9C%A8%E5%A4%A7%E9%87%8F%E7%9A%84-%E5%B0%8Fx%E7%9F%A5%E8%AF%86%E7%BD%91%E3%80%81%E5%B0%8Fx%E7%99%BE%E7%A7%91%E7%BD%91%E7%AD%89%E5%9E%83%E5%9C%BE%E4%BF%A1%E6%81%AF%E5%86%85%E5%AE%B9?hl=zh-Hans

烦请各位点个链接中的 “我也是”,Google目前在处理这个问题