uBlacklistRule

uBlacklist向けのルールです。

何故既にルールを共有するリポジトリがあるのに新しく作ったのか?

arosh/ublacklist-stackoverflow-translation: Stack Overflow の機械翻訳サイトの除外用フィルタなどすばらしい先駆者様が居ます。

ただこのリポジトリの対象はあくまで機械翻訳サイトのみなので、もっと広くブロックする自前のルールを作っていました。

メンテナンスが結構大変になってきたので、生成ツール付きで独立リポジトリとして公開することにしました。

ブロックするサイト

技術系スパムサイト

Stack Overflowなどから機械翻訳した内容を大量生成するサイトです。

翻訳してないで単にコピーしているサイトも対象です。

拡張子解説サイト

ファイル拡張子に関するページを機械で大量生成しているサイト。

まともに解説しているならば良いのですが、大抵は間違っているかテキストエディタか拡張子判別ソフトみたいなものを宣伝しているだけです。

普通に検索して拡張子が意味するファイルの種別が分かればそこから検索し直したほうが早いし正確。もしくはテキストファイルとして開いて内容を確認するかfileコマンドを使えば良いです。拡張子と明示的に検索しなくても出てくることが多く有害。

コピペサイト

特に新しい情報を生み出さないデッドコピーなサイト。

webプロキシなども対象です。明示的にwebプロキシを使いたい場合は検索結果経由で行かないでブックマークなどからトップページから使いますよね? なのでブロックしても問題ないと判断しています。

5chのコピーサイト

５ちゃんねるなどから内容をコピーした、機械生成の割合が高いサイトです。

全てをブロックしない理由

一つはあまりにもサイト数が多いので対処しきれないためです。

もう一つは5chは条件付きで公式にまとめサイトの生成を許可しているためです。 5chまとめブログ・5chまとめアプリ運営者の皆さまへ

ただランキングまとめみたいなのは出てきても情報収集が面倒になるだけなので除外します。

ゲハブログ

主にゲームに関するネガティブなデマを多く含む情報を撒き散らすことでPVを稼ぐサイトは、ゲームを楽しむ上で障害になるので除外します。

YouTubeやニコニコ動画などのコピーサイト

インラインで動画を出していたりメタデータを転載しているサイトです。

タイトルが設定されていないサイト

タイトルマッチングを使って無題などは除外します。

ftpライクなミラーインデックス

Linuxディストリビューションのミラーなど、Apacheやnginxの自動生成インデックスを返すサイトはソフトウェアを検索する上で邪魔なのでタイトルマッチングを使って除外します。

その他検索の役に立たないサイト

要らない検索結果はガンガン排除していきます。

存在しないサイトのURLがたくさん載っている理由

コピーサイトはドメインの一部分を変えるなどの方法でどんどん増えていきます。増えるたびにリストに追加するのは面倒です。機械増殖には機械増殖で対応します。よってこちらもURLを自動生成します。

何故類似のサイトを正規表現で除外しないのですか?

uBlacklistの現在のバージョンではルールに正規表現を使うことが出来ます。

これを使えば同じサイトのトップレベルドメインだけ変えたものだけを簡素に1行でブロックすることが可能です。

しかし私はあえてタイトル以外には使っていません。その理由は複数あります。

1つめの理由。このサイトがどのルールでブロックされているか確認したい時に単純なテキストの並びならgrepなどですぐに検索できますが、正規表現はどのルールがマッチするかどうか確認するツールを作るのが必要です。

2つめの理由。テキストデータをそのまま作るだけなら正規表現で無駄な繰り返しを除外するのは大いに有用ですが、Haskellプログラムでデータを生成する場合は正規表現より書きやすく除外出来るので、わざわざ正規表現を使う意義があまり無いためです。

このサイトが載ってないのはおかしい/このサイトが載っているのはおかしい

IssueやPull requestを是非ともお待ちしております。

Issueだけ建てるのも歓迎しますし、PRを作ってくださるのも歓迎いたします。

example.comはブロックするべき

というようなタイトル一行だけのIssueでも問題ありません。

ただし取り込むことは確約できません。

ncaq / uBlacklistRule

readme