Closed xidaner closed 5 months ago
这个大概只能靠Thread.create_time
判断,到点了就break,没有特别的接口
如果您先验地知道某timespan内的tid和pid/spid自增范围:
您的nas还有30GiB空间吗?能不能帮我archive(长难句开始)我曾于20年2月与近期步
奥利金德茶栗cj
后尘于github正义block我 https://z.n0099.net/#narrow/near/101379 的老外围四叶壬
kdwnil神 https://twitter.com/manka_takami 利用时任贴吧客户端网页版(移动端浏览器ua访问 http://tieba.baidu.com )的某举报帖子接口 https://web.archive.org/web/*/http://tieba.baidu.com/mo/q/postreport (司马克泰国第几的urlparser库从<a href=""
中吞了最后那个`)(根据 http://archive.org 其疑似已于23年虚元(根据
贴吧20周年2023-11-25https://z.n0099.net/#narrow/near/96508 我记得当时都还能用所以至少是在其之后才虚元的)现在只是个重定向引流到客户端app页)可以只提供pid参数从而查看任何回复贴pid/楼中楼spid的帖子内容和发帖用户(但仅限于此没有其所属回复贴pid/主题帖tid/吧fid等关系信息所以是孤立无上下文的)在
贴吧15周年2019-11-25https://z.n0099.net/#narrow/near/98685 后不久covid-19带流行初期的20年1~2月利用tbm_v1中产生的每年每月每日每小时自增pid分布所拟合出的曲线(见表
tb_pid_interval_by_hour)对
2003-11-25至2019-12-31=5881天中每日按该曲线采样
20k个pid以及额外最早期的前10m个pid共计128m条回复贴/楼中楼的tb_postreport数据集(长难句结束)和于
17年2月~19年2月期间活跃 https://github.com/n0099/open-tbm/tree/v1 所产生的
387k主题帖2.3m回复贴685k楼中楼`的tbm_v1数据集 https://n0099.net/tbm/v1/
如何制定爬取的日期 比如我需要爬取制定日期范围内的贴吧帖子