Closed GoogleCodeExporter closed 9 years ago
Прошу прощения, я пропустил этот issue :(
Более поздний ответ лучше чем никакого!
Короткий ответ - pugixml может парсить XHTML
(который является подмножеством XML), но не
может парсить HTML. Парсинг HTML достаточно
сильно отличается - парсер должен знать про
разные имена тегов, чтобы знать, какие
автоматически закрывать, уметь
обрабатывать значения атрибутов без
кавычек и еще наверняка несколько
интересных моментов. Есть форк
https://github.com/rofldev/pugihtml - я впрочем не знаю,
насколько хорошо он работает, знаю только
что он есть.
Поддержка HTML парсинга из коробки в pugixml не
планируется.
Original comment by arseny.k...@gmail.com
on 6 Mar 2013 at 4:08
Original issue reported on code.google.com by
getherefastest
on 26 Dec 2012 at 11:02