nakashima723 / P2Pcrwlr

P2Pクローラ
https://twitter.com/nakashima723
Other
0 stars 0 forks source link

スクレイパーを一定時間ごとに起動し、データを格納していくクローラを作る #5

Open nakashima723 opened 1 year ago

nakashima723 commented 1 year ago

各スクレイパーは一定時間ごとに起動させ、抽出したデータを整理して保存しておく必要があります。 別々のサイトで同じ内容のTorrentファイルがアップされていた場合、重複を防ぐ処理も必要です。

nakashima723 commented 1 year ago

クローラには、検索語を追加・保存する機能が必要です。

検索語はjson形式で保存・管理します。以下のようなフォーマットで考えます。

{
"all-age-queries" : ["勇者のクズ", "ほにゃほにゃ" ,"へにょへにょ" ],
"r18-queries" : [ "ほげほげ",  "もにゃもにゃ" ]
}

なんらかの理由でクロールが中断したとき、途中から再開する機能があってもいいかもしれませんが、かなり大量の作品(検索語)をかかえる場合にしか必要ないと思われるので、ひとまず置いておきます。

nakashima723 commented 1 year ago

検索語を入力・管理できるところまでやりました。 スクレイパーとの連携や、「ファイルからまとめて追加」する機能はまだです https://github.com/nakashima723/P2Pslyr/commit/398f76066b43cecab9ecbcaa97d523178127dc80

https://user-images.githubusercontent.com/110010061/230890556-263c4761-34f3-4427-8b8f-5a9eb4462fd9.mp4