issues
search
owner888
/
phpspider
《我用爬虫一天时间“偷了”知乎一百万用户,只为证明PHP是世界上最好的语言 》所使用的程序
3.49k
stars
1.17k
forks
source link
issues
Newest
Newest
Most commented
Recently updated
Oldest
Least commented
Least recently updated
PHP8运行官网demo报错
#169
mouday
opened
2 years ago
1
修复7.4.16版本报错bug--修复打个tag
#168
holla-shiqiang
opened
2 years ago
0
能不能内容也 先点击一个动作,余下全文,然后再开始采集?
#167
kavt
opened
2 years ago
0
关于分页采集 怎么搞都不对
#166
kavt
opened
2 years ago
2
tp5 默认会写入一下报错到日志里面
#165
know-that
opened
2 years ago
2
关于attached_url的bug
#164
yingzheng1980
opened
2 years ago
5
用js渲染数据的页面可以抓去吗?类似vue作为前段的
#163
262022334
opened
2 years ago
1
在用回调函数on_list_page去获得列表页数据时候,无法真正add_url
#162
qizhenchao
opened
2 years ago
2
修复不兼容php8语法导致的错误
#161
Levi-Xia-github
opened
2 years ago
0
关于知乎用户数据的爬虫我确实想过一个用途
#160
Wildwizard404
opened
3 years ago
0
高版本PHP已废弃这种 $s0{0} 写法,请使用$s0[0]
#159
twomiao
opened
3 years ago
2
如果知道动态网页的加载API并且也可以请求到json的数据,怎么能通过接口嵌入到框架里进一步抓取
#158
smil4ever
opened
3 years ago
1
最新的知乎应该怎么爬
#157
terranZY
opened
3 years ago
0
有遇到这个问题的吗?
#156
874033044
opened
3 years ago
1
修复开启多任务未配置queue_config参数导致的错误
#155
kayw-geek
closed
4 years ago
1
发现一个过时函数 & 一个 bug
#154
TianLanSky
closed
4 years ago
3
redis、mysql 执行长都出现了超时的情况
#153
test-lin
closed
4 years ago
0
文档里的某个xpath不起作用
#152
kekeyumuku
opened
4 years ago
3
建议用swoole
#151
wo642436249
closed
3 years ago
1
[error] Domain of scan_urls ("https://bbs.zhibo8.cc/forum/list/?fid=62") does not match the domains of the domain name
#150
Jack-Z-png
closed
4 years ago
0
我在windows环境下运行了demo下的马蜂窝
#149
13723777644
opened
4 years ago
2
验证码识别问题
#148
GMYXDS
opened
4 years ago
1
页面数据超过3M爬虫不处理有什么解决办法吗?
#147
lintingweiHS
opened
5 years ago
1
爬虫返回空,itemID为别的都可以唯独4不行
#146
lintingweiHS
closed
5 years ago
0
文档里面写支持 jsonpath,实际上代码里面没有实现?
#145
qiang-yu
closed
2 years ago
1
你好 请问怎么获取a标签的href属性呢 已经看了文档 a@href了
#144
generalbao
opened
5 years ago
1
爬取速度好慢是不是被限速之类了呢?
#143
woodzeng
opened
5 years ago
2
大师你好 怎么判断是否抓取完毕了?
#142
MissAlang
opened
5 years ago
6
爬取不同域名content_url_regexes怎么填写呢
#141
ShareDo9
opened
5 years ago
0
以后能不能支持爬JS动态渲染的网址啊 比如调用PhantomJS
#140
kuniao
opened
5 years ago
0
回调函数on_start的一些问题
#139
ghost
opened
5 years ago
0
抓取的页面中某个必须的field不存在,怎么把队列中的当前url去除
#138
zklknight
closed
2 years ago
0
tasknum多任务报错,之前没错
#137
zklknight
closed
5 years ago
0
有没有类似python里PhantomJs的采集方式
#136
zklknight
closed
5 years ago
2
是用demo中的qiushibaike.php,无法导出csv或者sql
#135
adminspaceplatform
closed
5 years ago
2
自定义发现内容页URL的匹配规则
#134
woodylan
opened
5 years ago
0
自定义发现内容页的匹配规则
#133
woodylan
closed
5 years ago
0
queue_rpush 方法去重了,add_url 重试是无法进入队列的……
#132
keefe-wu
opened
5 years ago
1
这个项目是不是凉了,没人了吗【已回复,作者在维护】
#131
rustxj
opened
5 years ago
3
on_scan_page 和 on_list_page回调函数
#130
security00
opened
5 years ago
1
我在on_fetch_url回调函数中,将当前页面抽取到url加入爬虫队列,发现这个url没有加入
#129
beydeng
opened
5 years ago
1
模拟登陆问题
#128
crazyYG
opened
5 years ago
0
这个判断是不是不对啊
#127
xchl
closed
5 years ago
0
网址url没有去重,每次启动都会新建数据?
#126
lirko
closed
6 years ago
0
内存溢出的问题
#125
8782230
opened
6 years ago
1
无法获取到列表页面的内容
#124
HelplessMan
opened
6 years ago
1
建议在get_urls方法增加钩子,方便添加额外的地址识别方法
#123
baopaul
opened
6 years ago
0
db::init_mysql()找不到
#122
shohanshohan
closed
3 years ago
1
在数据保存到数据库后,没有回调了吗?我想在这条数据保存到数据库后,引用它的ID,插入其它表
#121
baopaul
opened
6 years ago
1
正则匹配失效?
#120
GENG824
opened
6 years ago
0
Next