danny0838 / webscrapbook

A browser extension that captures web pages to local device or backend server for future retrieval, organization, annotation, and edit. This project inherits from legacy Firefox add-on ScrapBook X.
Mozilla Public License 2.0
908 stars 121 forks source link

Dcard網頁儲存失敗,不完整 #314

Closed DCGoner closed 1 year ago

DCGoner commented 1 year ago

測試網址:https://www.dcard.tw/f/ecolife/p/240615501 儲存檔名用【%TITLE%】會出現【Fatal error: filename must not contain illegal characters】,無法儲存。 用火狐頁面資訊,查看網頁標題是【短暫擁有hiding in 二代杯 - 無痕生活板 | Dcard】, 看不出來哪裡有問題,難道是【|】?

儲存檔名用【%ID%】可以儲存,但無法完整儲存。 不管是【擷取分頁】還是【擷取分頁(原貌)】都無法完整儲存留言區的部分 如果直接選取留言區來擷取,也只能擷取一小部分,前面會空白,只儲存了後面幾個留言 如果分段選取留言區來擷取,要一小段選取才會成功,選取太長的話就會出現空白,只儲存部分留言 雖然多次選取(長度要拿捏)還是能把留言區儲存,但有點小麻煩,不曉得有沒有解決方法? 感謝🙏🏻

系統資訊: Win10 Pro 64bit Firefox Nightly 110.0a1(2022-12-25)(64 位元)

danny0838 commented 1 year ago

存檔出錯是因為標題含有 U+00A0 (不斷行空白),而 Firefox 下載API 禁止儲存為含有此字元的檔名。Chrome 則無此限制。

我們還要再調查 Firefox 還有哪些諸如此類的問題。在此之前可改用 Chrome,或手動替換掉這些字元,或不要用 %title%。

擷取不完整是因為 Dcard 有動態載入的設計,會隨使用者捲動自動移除不在螢幕可視範圍的留言(大概是為了節省記憶體)。這個沒有簡單的解決方法,除非有足夠技術力寫個站台專屬腳本或瀏覽器套件以改變網站的行為。或者反映給站方請他們改。

danny0838 commented 1 year ago

1.6.0 已修正 U+00A0 造成錯誤的問題。