Open nakashima723 opened 1 year ago
クローラには、検索語を追加・保存する機能が必要です。
検索語はjson形式で保存・管理します。以下のようなフォーマットで考えます。
{
"all-age-queries" : ["勇者のクズ", "ほにゃほにゃ" ,"へにょへにょ" ],
"r18-queries" : [ "ほげほげ", "もにゃもにゃ" ]
}
なんらかの理由でクロールが中断したとき、途中から再開する機能があってもいいかもしれませんが、かなり大量の作品(検索語)をかかえる場合にしか必要ないと思われるので、ひとまず置いておきます。
検索語を入力・管理できるところまでやりました。 スクレイパーとの連携や、「ファイルからまとめて追加」する機能はまだです https://github.com/nakashima723/P2Pslyr/commit/398f76066b43cecab9ecbcaa97d523178127dc80
各スクレイパーは一定時間ごとに起動させ、抽出したデータを整理して保存しておく必要があります。 別々のサイトで同じ内容のTorrentファイルがアップされていた場合、重複を防ぐ処理も必要です。