senjuhashirama / pugixml

Automatically exported from code.google.com/p/pugixml
0 stars 0 forks source link

HTML Parsing #190

Closed GoogleCodeExporter closed 9 years ago

GoogleCodeExporter commented 9 years ago
У меня не получается обработать HTML, можно 
ли с помощью pugixml обработать HTML как XML? 
Синтаксис у них ведь у них не особо 
различается.

Original issue reported on code.google.com by getherefastest on 26 Dec 2012 at 11:02

GoogleCodeExporter commented 9 years ago
Прошу прощения, я пропустил этот issue :(

Более поздний ответ лучше чем никакого! 
Короткий ответ - pugixml может парсить XHTML 
(который является подмножеством XML), но не 
может парсить HTML. Парсинг HTML достаточно 
сильно отличается - парсер должен знать про 
разные имена тегов, чтобы знать, какие 
автоматически закрывать, уметь 
обрабатывать значения атрибутов без 
кавычек и еще наверняка несколько 
интересных моментов. Есть форк 
https://github.com/rofldev/pugihtml - я впрочем не знаю, 
насколько хорошо он работает, знаю только 
что он есть.

Поддержка HTML парсинга из коробки в pugixml не 
планируется.

Original comment by arseny.k...@gmail.com on 6 Mar 2013 at 4:08