nakashima723 / P2Pcrwlr

P2Pクローラ
https://twitter.com/nakashima723
Other
0 stars 0 forks source link

トラッカーサイトから情報を抽出するスクレイパーを作る #4

Open nakashima723 opened 1 year ago

nakashima723 commented 1 year ago

違法ファイルの存在は、Web上のトラッカーサイトから発見する必要があります。

主要トラッカーサイトから、数日以内にアップロードされた違法ファイルだけを抽出するスクレイパーを作ります。 これをクローラの自動巡回機能と組み合わせて、違法なTorrentファイルを収集していきます。

nakashima723 commented 1 year ago

とりあえず、nyaaを対象としたスクレイパーを7割がた作りました。 動作テスト用として、任意の検索語を入力すると、90日以内にアップされたファイルの日付のみを表示するようにしてあります。 https://github.com/nakashima723/P2Pslyr/commit/2d6da6e8293e46e7ae68093d474ef3aa37ca5654

実用的には、アップロードされてから3日以内くらいまでのファイルのみを抽出することになると思われます。 また、torrentファイルがアップロードされているURLの記録も必要です。

nakashima723 commented 1 year ago

実際にtorrentファイルを収集できるところまで完成しました。 これをもとに、別のトラッカーサイト用のスクレイパーとしても機能するようにしていきます。 https://github.com/nakashima723/P2Pslyr/commit/2c1dce560f27b75dc6b3be735d438fcd7a402aa6

・torrentファイルは、対象ファイル名+サイト上でアップされた日付  のフォルダをそれぞれ作成し、その中に格納。  証拠収集は、この各フォルダ内へファイル毎に行っていきます。

・同名のフォルダがすでにある場合は、torrentファイルを重複してダウンロードしないようになっています。

・ファイル名・フォルダ名にできない文字が入らないよう、文字列の正規化を行っています。

nyaaについてはこれでほぼ完成ですが、クローラやUIと接続する際に 「検索語」と、「何日前のファイルまで取得するか」を受け取る処理を書く必要があります。

メモ:過剰なアクセスで弾かれないよう、sleep()をどこかに入れる必要もありそうです。