limura / NovelSpeaker

text speech app for text novel site.
https://limura.github.io/NovelSpeaker/
MIT License
28 stars 6 forks source link

Web取込機能を用いてハーメルンの小説を取り込むと、章の詳細がわかりにくくなる #82

Open limura opened 6 years ago

limura commented 6 years ago

ご意見ご要望フォームより

新しく追加されたweb機能についてです。ハーメルンなどのサイトでは第1章(1)(2)(3)第2章(1)(2)(3)のようになっています。そのため、今ダウンロードしたのはどこまでなのかがわかりにくいです。それと、ダウンロードしても順番などもわかりにくいです。

limura commented 6 years ago

例になりそうなもの

小説のトップページ(?)に章のリストがある https://syosetu.org/novel/75327/ この小説の場合、

  OPENING 2016年02月03日(水) 17:57(改) 外伝   知られざる闘い――月は堕ちた 2016年02月16日(火) 09:45   黒森峰戦車中隊、前へ! 2016年02月20日(土) 00:33(改) [中略] episode ONE   邂逅~1 2016年02月04日(木) 21:46(改)   邂逅~2 そして契約 2016年02月05日(金) 18:18(改)

といった感じになっている。 「外伝」や「episode ONE」といった部分を section, 「知られざる闘い」や「邂逅〜1」といった部分を subsection と呼ぶとすると、 最初の「OPENING」subsection には section が無いので構造的には単純な作り方だとマズそう。

また、個々の subsection のページ https://syosetu.org/novel/75327/2.htmlhttps://syosetu.org/novel/75327/3.html といったもの では、(この小説だけなのか、それともサイト全体の仕様なのかは不明だが)、最初の subsection にしか section名 が書かれていない。 また、section名, subsection名 のそれぞれが書かれているエレメントは一つの <span> で囲われており、xpath で分解することができない。

以上の事から、ちょっと面倒くさそうというか簡単にはできなさそうですねぇ…… あるといいのはわかりますけれども。(´・ω・`)

limura commented 6 years ago

とはいえ、章毎のタイトルを表示したりする機能があるといいかもわからんので、章毎のタイトルを保存する領域は作っておいたほうがいいかもしれない。 subsection まで作るべきかはちょっと議論の余地があるというか、この例の場合では section と subsection は人間には見分けられそうだが機械には見分けづらそうであるので section+subsection でひとまとめにしてしまう方が簡単なのではないかと思われる。とりあえず、他のサイトではどうなのかを確認する必要がありそう。