jae-jae / QueryList

:spider: The progressive PHP crawler framework! 优雅的渐进式PHP采集框架。
https://querylist.cc
2.65k stars 440 forks source link

phpQuery有个bug,那就是当HTML中有它无法识别的特殊字符时,HTML就会被截断,导致最终的采集结果不正确 #90

Closed ghost closed 3 years ago

ghost commented 4 years ago

phpQuery有个bug,那就是当HTML中有它无法识别的特殊字符时,HTML就会被截断,导致最终的采集结果不正确,此时可以尝试使用正则或其它方式获取到要采集的内容的HTML片段,把这个HTML片段传给QueryList,从而可以解决这种场景下的问题。

请问这个BUG会修复吗?特殊字符,表情会中断,对我的业务需求来说.问题比较大.

svipchao commented 4 years ago

编码转换

解决采集HTML乱码

ghost commented 4 years ago

转换后,用querylist采集过滤就有问题,就只能用正则了。这样意义不大。

svipchao commented 4 years ago

没问题吧,我没遇见过

jae-jae commented 3 years ago

这个问题不太好修复,欢迎大家一起研究一下,给 phpQuery 项目提PR