Closed limura closed 3 years ago
Pixiv小説のシリーズを含むもの https://www.pixiv.net/novel/ や、刺猬猫阅读 https://www.ciweimao.com/ といった、JavaScriptか何かを使って要素を遅延読み込みするWebサイトに対しては、現時点の手法(である HTTP GET リクエストで取得したHTMLを解析するだけで)は対応できません。
これらのサイトに対応するために、Headless browser を使っての取得ができるようにすべきです。
ざっと調べた範囲では Erik という実装を使うと良いと考えられます。 https://github.com/phimage/Erik
Erik を導入する場合、「Erik.visit() の初回呼び出し時に10秒以上待たされる」という問題がありそうだったので、そちらの調査から始めると良さそうであることをメモしておきます。
Version 2.0.0 としてリリースしたのでこのIssueはcloseします。
Pixiv小説のシリーズを含むもの https://www.pixiv.net/novel/ や、刺猬猫阅读 https://www.ciweimao.com/ といった、JavaScriptか何かを使って要素を遅延読み込みするWebサイトに対しては、現時点の手法(である HTTP GET リクエストで取得したHTMLを解析するだけで)は対応できません。
これらのサイトに対応するために、Headless browser を使っての取得ができるようにすべきです。