danny0838 / content-farm-terminator

Content Farm Terminator browser extension/「終結內容農場」瀏覽器套件
https://danny0838.github.io/content-farm-terminator/
GNU General Public License v3.0
1.34k stars 47 forks source link

清單中無效與重複的內容 #62

Closed mingwei-cai closed 2 years ago

mingwei-cai commented 3 years ago

這裡有一些關於黑名單列表中的無效內容和重複內容的問題:

  1. 在 "假新聞網站清單" 中,前 98 行都是以空格開頭的,實測後確定這些規則完全沒有任何作用。我猜應該是因為空格之後都被當成註解了,是不是應該刪除空格?
  2. "coder.work" 在 "標準內容農場清單" 和 "類內容農場清單" 中都有出現。是不是可以直接併入 "標準內容農場清單" 中?
  3. "entertainment14.net" 在 "類內容農場清單" 和 "假新聞網站清單" 中都有出現。是不是可以直接併入 "標準內容農場清單" 中?
  4. 在 "標準內容農場清單" "假新聞網站清單" "詐騙網站清單" 中都有一些重複的規則,就是其中一行規則包含在另一行規則的覆蓋範圍之內,或甚至是兩行內容完全相同。

對於第4點,我寫了一個小工具 https://jsfiddle.net/hvyL16e5/ 可以來檢查這些規則,會輸出有哪些重複以及去除重複後的清單內容。只要把要檢查的清單內容整個複製到 "清單內容" 中,再按 "檢查" 按鈕就可以了。不過由於要交叉比對所有規則,可能要跑個幾十秒,請耐心等待。

danny0838 commented 3 years ago
  1. "假新聞網站清單" 和 "詐騙網站清單" 都有註明只是備考,並非正式清單。基本上就是從其他來源整理而來,但我們目前還沒有研究出完整的方針,所以僅供參考。所以我們不會特別去處理備考清單和正式清單重複的問題。 空一格是代表註解沒錯,當時弄成註解是因為有些項目無法使用或明顯不是內容農場,但為了保留「有來源將XX網站認定為XX」的資訊,因此只是設成註解而未刪除。

  2. coder.work 重複的問題會處理。該網站大量改編 Stack Overflow 文章,但未按照 CC-BY SA 授權要求聲明授權及明確表彰來源,因此認定為侵權農場。

mingwei-cai commented 3 years ago

我上面第4點說的不是兩個清單之間重複,而是一個清單內自己就有重複的規則了。像是同一個清單內有兩個域名,其中一個是另一個的子域名的這種。 以 "標準內容農場清單" 為例,用我那個小工具去檢查,就會看到下面這幾條重複規則:

app.myzaker.com 已被 myzaker.com 覆蓋 apple.ipub.fun 已被 ipub.fun 覆蓋 bear.umtalk.net 已被 umtalk.net 覆蓋 bud.healthdaily.tw 已被 healthdaily.tw 覆蓋 ent.fanpiece.com 已被 fanpiece.com 覆蓋 f.duckhk.com 已被 duckhk.com 覆蓋 fact.checked.news 已被 checked.news 覆蓋 happiness.beauties.life 已被 beauties.life 覆蓋 hk.saowen.com 已被 saowen.com 覆蓋 love.itsfun.com.tw 已被 itsfun.com.tw 覆蓋 news.kokyzone.com 已被 kokyzone.com 覆蓋 parker90.ipub.pro 已被 ipub.pro 覆蓋 ptt.techroomage.com 已被 techroomage.com 覆蓋 roys.joylah.co 已被 joylah.co 覆蓋 story.bazzfly.com 已被 bazzfly.com 覆蓋 tw.anyelse.com 已被 anyelse.com 覆蓋 tw.bpm1579.com 已被 bpm1579.com 覆蓋 tw.gigacircle.com 已被 gigacircle.com 覆蓋 watermedia.touchtech.tw 已被 touchtech.tw 覆蓋 woman.horo88.cc 已被 horo88.cc 覆蓋 yingtao.gjoyz.co 已被 gjoyz.co 覆蓋

danny0838 commented 3 years ago

我上面第4點說的不是兩個清單之間重複,而是一個清單內自己就有重複的規則了。像是同一個清單內有兩個域名,其中一個是另一個的子域名的這種。 以 "標準內容農場清單" 為例,用我那個小工具去檢查,就會看到下面這幾條重複規則:

這些的確是可以先去除,感謝!

danny0838 commented 2 years ago

調整了黑名單管理機制,現在那些之前暫時加註解的規則已改成用正規表示式形式比對 domain name。

也用 Python 寫了新的去重腳本。