yllhwa / RSSWorker

运行在Cloudflare Worker上的RSS订阅生成器
MIT License
489 stars 291 forks source link

小红书源抓取的原文章链接有误 #15

Open JerryYang-30 opened 1 week ago

JerryYang-30 commented 1 week ago

比如这个源:https://rss-worker.jerry30yang.workers.dev/rss/xiaohongshu/user/5c8e6f18000000001200065f https://www.xiaohongshu.com/user/profile/5c8e6f18000000001200065f/ 里面抓取的文章link全都是笔记发布者的个人主页,而不是文章的链接 image

yllhwa commented 1 week ago

刚看了下,小红书现在不登陆不会返回笔记的链接,所以无法获取到。 在网页端直接点击也会提示“登录即可查看 Ta 的笔记”。 😭

JerryYang-30 commented 1 week ago

刚看了下,小红书现在不登陆不会返回笔记的链接,所以无法获取到。 在网页端直接点击也会提示“登录即可查看 Ta 的笔记”。 😭

wok,怪不得😭最近就感觉小红书网页版好像有改动。没事,跳到个人主页也行,也就多点击一次😂

Miing3016 commented 5 days ago

这个可以修复吗

JerryYang-30 commented 5 days ago

这个可以修复吗

建议可以自己手动给小红书文章源加个guid,我用的阅读器Qi Reader是根据guid(如果源没有提供,就根据文章link)来判断文章是否重复。 像最近RSSWorker抓取到的文章link全都是文章发布者的个人主页,所以前几天我的阅读器一直不推送新文章。昨天我用文章的封面链接作为guid,就恢复正常更新了。 PS:不过要截取封面链接的末尾作为guid,因为链接前半部分含有时间格式,会一直变化。最开始我就是用完整封面链接当id的,结果一直重复抓取,早上醒来给我抓了5000+文章😂后面改成guid: noteCard.cover.infoList.pop().url.slice(-57) 或许也可以尝试用文章标题当id,但有些小红书作者的文章标题全都一样,或者干脆就没标题