直接爬虫获取数据

AlifeLine / Emby.Plugins.Douban

Emby的豆瓣削刮器

481 stars 64 forks source link

直接爬虫获取数据 #15

Open Kerrbty opened 2 years ago

Kerrbty commented 2 years ago

可以使用爬虫直接获取豆瓣的电影数据吗。目前我是做了一个Python版的服务器api接口 github地址 : https://github.com/Kerrbty/douban_api ，把豆瓣搜刮器里面的 BaseDoubanUrl 改成我自己的服务器URL是可以处理的。
另外，豆瓣搜刮器需要重新从豆瓣网页获取图片信息等，下载太多会要求登录，登录的话，能直接加 Cookie 进去吗，手机短信验证就麻烦了。

另：我api接口里面复制浏览器的 Cookie 加在

http_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36',
    'Cookie' : 'xxxxxx'
}

即可，已测试过

Kerrbty commented 2 years ago

ip被限制的情况下，搜刮出来的演员信息都是同一个人的，名字也是同一个，但是扮演对象却是正确的。

QQ截图20220106191950

AlifeLine commented 2 years ago

可以使用爬虫直接获取豆瓣的电影数据吗。目前我是做了一个Python版的服务器api接口 github地址 : https://github.com/Kerrbty/douban_api ，把豆瓣搜刮器里面的 BaseDoubanUrl 改成我自己的服务器URL是可以处理的。

另外，豆瓣搜刮器需要重新从豆瓣网页获取图片信息等，下载太多会要求登录，登录的话，能直接加 Cookie 进去吗，手机短信验证就麻烦了。

另：我api接口里面复制浏览器的 Cookie 加在
http_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36',
    'Cookie' : 'xxxxxx'
}
即可，已测试过

目前削刮器用的接口是豆瓣Android客户端的接口，不清楚和网页端的cookie是否通用

Kerrbty commented 2 years ago

请教一下，elessar Subject 里面的 doubanId 是取的哪个值的呢？我那边搜刮接口演员全是一个人，原因在于 /api/v2/elessar/subject 接口没处理

AlifeLine commented 2 years ago

记不太清了，你可以看我代码里是怎么取演员的id的，我大概记得豆瓣的影片有两个id，某些接口用的id和其他接口不一样，需要抓另一个影片的id，然后才能获取到演员信息