Zacharia2 / SuperMemo-Toolkit

SuperMemo 增强工具(CLI命令行)。包含图链整理、EPUB图书转换导入、Latex公式转图片等。
GNU General Public License v2.0
24 stars 3 forks source link

元素中的空格被解析为问号 #3

Closed Zacharia2 closed 10 months ago

Zacharia2 commented 10 months ago
<html>
<body>
    <h1>这是 一个标题</h1>
    <p>这是 一个段落</p>
    <div>这是一个<div>内嵌的</div>块级元素</div>
</body>
</html>

例子,如何阅读一本书。

Zacharia2 commented 10 months ago

空格变成问号的怪问题:https://blog.csdn.net/weixin_41771218/article/details/82142591

space = bytearray([0xc2, 0xa0])
UTF_space = space.decode("UTF-8")

result = html_str.replace(UTF_space, " ")

print(result)
Zacharia2 commented 10 months ago

以下是Unicode中所有的空格字符:

  1. U+0020: 空格字符
  2. U+00A0: 不间断空格
  3. U+1680:  欧洲分隔符
  4. U+2000:  纤细空格
  5. U+2001:  中等空格
  6. U+2002:  恒定空格
  7. U+2003:  对齐填充字符
  8. U+2004:  半宽对齐填充
  9. U+2005:  四分之一宽空格
  10. U+2006:  六分之一宽空格
  11. U+2007:  数字空格
  12. U+2008:  标点空格
  13. U+2009:  细空格
  14. U+200A:  窄空格
  15. U+202F:  窄的不间断空格
  16. U+205F:  数学空格
  17. U+3000:  全角空格

这是Unicode中所有的空格字符,它们具有不同的宽度和用途。你可以根据需要选择合适的空格字符来满足排版和布局的要求。

Zacharia2 commented 10 months ago

U+2003空白字符会在sm中变成(?)问号