Closed naah69 closed 3 months ago
@naah69 requests.get(url) 直接请求公众号文章获取不到数据的,返回的是验证页面
我拿掘金的文章试了下也不行,没有内容
from magic_html import GeneralExtractor
import requests
# 初始化提取器
extractor = GeneralExtractor()
url = 'https://juejin.cn/post/7304867278566899764?utm_source=gold_browser_extension'
resp = requests.get(url)
html=resp.text
# 文章类型HTML提取数据
data = extractor.extract(html, base_url='https://juejin.cn')
print(data)
{'xp_num': 'others', 'drop_list': False, 'html': '<html></html>', 'title': None, 'base_url': 'https://juejin.cn'}
@naah69 requests.get(url) 直接请求公众号文章获取不到数据的,返回的是验证页面
我debug了下,发现可以拿到内容
@naah69 如你所说“debug了下,发现可以获得网页请求响应内容“,那么抽取结果是否正呢?这边测试是没问题的
@naah69 如你所说“debug了下,发现可以获得网页请求响应内容“,那么抽取结果是否正呢?这边测试是没问题的
我这边微信是报错的,其他平台都抽不出来
我这边的版本如下: os: macos 12.5 arm python: 3.8.18 magic_html:0.1.2
@sixgad 能麻烦问下那边的环境和安装方式吗
debug了下,发现问题了,我本地的lxml包版本太老了,我用的是4.7.1版本,升级到5.1.1就好了