Gerapy / GerapyAutoExtractor

Auto Extractor Module
https://pypi.org/project/gerapy-auto-extractor/
Apache License 2.0
321 stars 79 forks source link

https://www.econ.sdu.edu.cn/zxzx/tzgg.htm 类似这种带分类链接的能智能提取吗 #15

Open ieliwb opened 3 years ago

ieliwb commented 3 years ago

https://www.econ.sdu.edu.cn/zxzx/tzgg.htm 这种网站,由于有2个链接,导致结果为空,大佬可以更新下吗

ieliwb commented 3 years ago

可以加一个自定义规则吗,有些网站提取不到,可以用规则,类似:

result = extractor.extract(html, noise_node_list=['//div[@class="comment-list"]'])

谢谢