gxtrobot / bustag

a tag and recommend system for old bus driver 给老司机用的一个番号推荐系统
MIT License
3.85k stars 586 forks source link

最近javbus的图片网址变了,导致图片都显示不出来 #95

Open reichou1989 opened 3 years ago

reichou1989 commented 3 years ago

如题,图片地址都变成自己的ip开头,应该是抓取错误,有大佬能更新一下吗

aiastia commented 3 years ago

+1

huangqian8 commented 3 years ago

估计没什么希望了

SUPERDBFMP commented 3 years ago

+1 这情况好久了,大佬求修复

huangqian8 commented 3 years ago

研究了一下代码,自己搞定了。作者应该是不更新了。

hspmanbu commented 3 years ago

研究了一下代码,自己搞定了。作者应该是不更新了。

兄弟在哪改的啊,瞅了半天还没找到。。。

huangqian8 commented 3 years ago

有几个文件需要修改 1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下: cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href'] 2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下: <img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />

我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下: /app/src/bustag/bustag/spider/parser.py /app/src/bustag/bustag/app/views/index.tpl /app/src/bustag/bustag/app/views/tagit.tpl

hspmanbu commented 3 years ago

有几个文件需要修改 1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下: cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href'] 2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下: <img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />

我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下: /app/src/bustag/bustag/spider/parser.py /app/src/bustag/bustag/app/views/index.tpl /app/src/bustag/bustag/app/views/tagit.tpl

早知道用docker或者源码运行了,省事用的打包的win版parser.py改不了了

huangqian8 commented 3 years ago

有几个文件需要修改 1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下: cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href'] 2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下: <img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" /> 我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下: /app/src/bustag/bustag/spider/parser.py /app/src/bustag/bustag/app/views/index.tpl /app/src/bustag/bustag/app/views/tagit.tpl

早知道用docker或者源码运行了,省事用的打包的win版parser.py改不了了

推荐用docker,我自己在群晖上运行的。数据库(bus.db)肯定要重新生成了,因为图片地址是存入数据库的。推倒重来无可避免。

hspmanbu commented 3 years ago

推荐用docker,我自己在群晖上运行的。数据库(bus.db)肯定要重新生成了,因为图片地址是存入数据库的。推倒重来无可避免。

我页面打标和没打标的只有2000多条,数据库里已经1W6了,这重来的量有点大 (⊙﹏⊙)

huangqian8 commented 3 years ago

我页面打标和没打标的只有2000多条,数据库里已经1W6了,这重来的量有点大 (⊙﹏⊙)

找个数据库管理软件,批量处理一下吧。

hspmanbu commented 3 years ago

找个数据库管理软件,批量处理一下吧。

兄弟你知道网页显示的推荐和打标的内容数据存在哪了吗,感觉不在bus.db里面

hspmanbu commented 3 years ago

批量修改加删除referer之后win版也完美解决,哈,只是今后得批量手动修改cover_img_url了

huangqian8 commented 3 years ago

兄弟你知道网页显示的推荐和打标的内容数据存在哪了吗,感觉不在bus.db里面

粗看了一下,bus.db存储了所有爬到的数据,这两个页面的数据都是根据模型算法从bus.db里读取的。 写个脚本定期更新一下cover_img_url即可。能自动化的绝不手动。

hspmanbu commented 3 years ago

粗看了一下,bus.db存储了所有爬到的数据,这两个页面的数据都是根据模型算法从bus.db里读取的。 写个脚本定期更新一下cover_img_url即可。能自动化的绝不手动。

推荐内容的rate_type是2,打标里的rate_type是1,推荐页标记正确或者错误之后rate_type就从2变到1了。上传数据库之后rate_type为1的内容是可以恢复的,关键是推荐里的内容恢复不了,但是数据库里有所有推荐内容数据,应该是有一个文件记录了推荐内容的番号,从数据库读取后在web页面显示,如果能找到这个文件,那就不用担心转移数据后推荐内容的丢失了

aiastia commented 3 years ago

我改好docker了,旧的数据库 好像不用改了图片出来了 aiastia/bustag

有几个文件需要修改 1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下: cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href'] 2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下: <img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />

我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下: /app/src/bustag/bustag/spider/parser.py /app/src/bustag/bustag/app/views/index.tpl /app/src/bustag/bustag/app/views/tagit.tpl

aiastia commented 3 years ago

cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']

这个感觉要写个判断,部分图片是有网址是 比如 https://pics.dmm.co.jp/digital/video/sqte00374/sqte00374pl.jpg

skypjsfly commented 3 years ago

有几个文件需要修改 1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下: cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href'] 2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下: <img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />

我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下: /app/src/bustag/bustag/spider/parser.py /app/src/bustag/bustag/app/views/index.tpl /app/src/bustag/bustag/app/views/tagit.tpl

请大佬详细描述一下怎么修改,我按照这个修改无效啊 Screenshot_20210630-231701_Via 麻烦指导一下哪里错了

huangqian8 commented 3 years ago

麻烦指导一下哪里错了

网址最后的斜杠去掉。

skypjsfly commented 3 years ago

麻烦指导一下哪里错了

网址最后的斜杠去掉。

我今天看了下更新,图片还是本地ip的链接,就算是多了一个斜杠,也不应该还是本地ip吧

skypjsfly commented 3 years ago

麻烦指导一下哪里错了

网址最后的斜杠去掉。

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

huangqian8 commented 3 years ago

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

docker版吗?不应该啊,上面有人已经成功了。

huangqian8 commented 3 years ago

这个感觉要写个判断,部分图片是有网址是 比如 https://pics.dmm.co.jp/digital/video/sqte00374/sqte00374pl.jpg

这个简单,加个图片地址判断,如果自带http那就使用爬取到的,如果没有http,那就补全网址。

if "http" in html.find(cover_img_css)[0].attrs['href']:
    cover_img_url = html.find(cover_img_css)[0].attrs['href']
else:
    cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
skypjsfly commented 3 years ago

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

docker版吗?不应该啊,上面有人已经成功了。

[不知道大佬是怎么映射的,我是整个文件夹全映射出来] image

huangqian8 commented 3 years ago

[不知道大佬是怎么映射的,我是整个文件夹全映射出来] image

image 容器重启过吗?

skypjsfly commented 3 years ago

[不知道大佬是怎么映射的,我是整个文件夹全映射出来] image

image 容器重启过吗?

肯定重启过了啊,但是大佬你这样只映射data文件夹,不是其他的文件都改不了吗,难道进docker里面改?

huangqian8 commented 3 years ago

肯定重启过了啊,但是大佬你这样只映射data文件夹,不是其他的文件都改不了吗,难道进docker里面改?

的确是进容器内改的。 我不清楚改之前已经爬取到到的数据是否会正常显示,我自己是删掉bus.db重新开始的。 但有人提到不删掉bus.db,之前的也会正常显示,我没做过测试。

skypjsfly commented 3 years ago

肯定重启过了啊,但是大佬你这样只映射data文件夹,不是其他的文件都改不了吗,难道进docker里面改?

的确是进容器内改的。 我不清楚改之前已经爬取到到的数据是否会正常显示,我自己是删掉bus.db重新开始的。

我刚才也把数据库删了,确实可以了,感谢大佬

huangqian8 commented 3 years ago

我刚才也把数据库删了,确实可以了,感谢大佬

那你看到的应该不是新爬取的,之前的只能修改数据库文件了。既然你都删了,那也无所谓了。

skypjsfly commented 3 years ago

我刚才也把数据库删了,确实可以了,感谢大佬

那你看到的应该不是新爬取的,之前的只能修改数据库文件了。既然你都删了,那也无所谓了。

好像可以把老数据库导入进去,图片就能看了

aiastia commented 3 years ago

这个感觉要写个判断,部分图片是有网址是 比如 https://pics.dmm.co.jp/digital/video/sqte00374/sqte00374pl.jpg

这个简单,加个图片地址判断,如果自带http那就使用爬取到的,如果没有http,那就补全网址。

if "http" in html.find(cover_img_css)[0].attrs['href']:
    cover_img_url = html.find(cover_img_css)[0].attrs['href']
else:
    cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
a = "http://www.javbus.com"
b = html.find(cover_img_css)[0].attrs['href']
if re.match(r'^https?:/{2}\w.+$', b):   
    cover_img_url = b       
else:
    cover_img_url = a + b
aiastia commented 3 years ago

肯定重启过了啊,但是大佬你这样只映射data文件夹,不是其他的文件都改不了吗,难道进docker里面改?

的确是进容器内改的。 我不清楚改之前已经爬取到到的数据是否会正常显示,我自己是删掉bus.db重新开始的。 但有人提到不删掉bus.db,之前的也会正常显示,我没做过测试。

之前也会有部分的不正常。 我是进数据库把地址改了部分不能显示的 就正常了

aiastia commented 3 years ago

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

docker版吗?不应该啊,上面有人已经成功了。

[不知道大佬是怎么映射的,我是整个文件夹全映射出来] image

可以和之前一样 image 用我的这个 aiastia/bustag:dev

skypjsfly commented 3 years ago

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

docker版吗?不应该啊,上面有人已经成功了。

[不知道大佬是怎么映射的,我是整个文件夹全映射出来] image

可以和之前一样 image 用我的这个 aiastia/bustag:dev

大佬是准备接手这个项目了吗?

aiastia commented 3 years ago

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

docker版吗?不应该啊,上面有人已经成功了。

[不知道大佬是怎么映射的,我是整个文件夹全映射出来] image

可以和之前一样 image 用我的这个 aiastia/bustag:dev

大佬是准备接手这个项目了吗?

又不是不能用……

mjuu-cl commented 3 years ago

有几个文件需要修改 1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下: cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href'] 2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下: <img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" /> 我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下: /app/src/bustag/bustag/spider/parser.py /app/src/bustag/bustag/app/views/index.tpl /app/src/bustag/bustag/app/views/tagit.tpl

请大佬详细描述一下怎么修改,我按照这个修改无效啊 Screenshot_20210630-231701_Via 麻烦指导一下哪里错了

大佬麻烦指点下,刚在群晖安装了bustag,不显示图片,请问这几个文件如何访问啊,文件位置我都找不到,访问不了,群晖的操作不是很懂。

mjuu-cl commented 3 years ago

有几个文件需要修改 1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下: cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href'] 2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下: <img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />

我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下: /app/src/bustag/bustag/spider/parser.py /app/src/bustag/bustag/app/views/index.tpl /app/src/bustag/bustag/app/views/tagit.tpl

大佬麻烦指点下,刚在群晖安装了bustag,不显示图片,请问这几个文件如何访问啊,文件位置我都找不到,访问不了,群晖的操作不是很懂。

hspmanbu commented 11 months ago

研究了一下代码,自己搞定了。作者应该是不更新了。

@huangqian8 大佬最近javbus加了登录验证,如果使用cookies登录的话应该在哪个文件修改呢