ncaq / google-search-title-qualified

Google will omit the title of the web page. With this add-on, the original title is used as much as possible.
MIT License
16 stars 1 forks source link

プレーンテキストのtitleをtrimする #87

Closed ncaq closed 2 years ago

ncaq commented 2 years ago

代入時にinnerTextを使った影響で無意味に <br> が入ってしまう例が出てきました。

image

とりあえずのワークアラウンドとして改行を含まないものはtextContentを使うようにしようかと思いましたが、

  <title>

      Word2Vecとは? - Deeplearning4j: Open-source, Distributed Deep Learning for the JVM

  </title>

のようにtitleに改行を入れているのが問題なので、 とりあえずtrimで良いでしょう。

ncaq commented 2 years ago

というかDOMParserはこの改行消さないんだな…謎… まあtitleだけ特別扱いする規格とかもないか?

ncaq commented 2 years ago

厳密に考えるとtitleで改行してるのも消さないといけないのかなあ? でも改行してるってことはサイト的には改行してほしいんだろうか。 titleの改行が反映される可能性を考えると単に文字数でやってる可能性が高いと思うが。 とりあえず改行は考えないで修正しますか。