lndj / Lcrawl

一只优雅的正方教务系统爬虫。
MIT License
114 stars 46 forks source link

我知道怎么处理了 #13

Closed xuzuxing closed 6 years ago

xuzuxing commented 6 years ago

就是验证码的问题,但是我对这个guzzle不太了解 ,希望您给出思路。 (这里还有就是 访问jwxt.xxx.cn之后应该先拿到header里的Location:/(vyw2ohfmtedwcw55peosy0iw)/default2.aspx,下面都基于这个location的链接处理的) 一、获取到登录页面default2.aspx的cookie ,并储存变量cookie 二、使用cookie进行访问获取验证码 储存验证码图片至本地 三、输入验证码,学号密码一同提交
这样才能提交通过。可是我有不知到怎么整合到您的类库中去,特此来求教。望回

xuzuxing commented 6 years ago

百度上找了个版本 ,可以使用 就一个文件 希望能整合以下,谢谢。

`<?php /**

//Set the base_uri. 获取跳转Location $curl = curl_init(); curl_setopt($curl, CURLOPT_URL, 'http://jwxt.hzu.gx.cn'); curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1); curl_setopt($curl, CURLOPT_HEADER, 1); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); $data = curl_exec($curl); curl_close($curl); //匹配跳转链接 preg_match('/Location: \/((.*))/', $data,$temp);

$cookie = dirname(FILE) . $_SESSION['id'].'.txt'; //cookie路径,将cookie写入一个文件中

$verify_code_url = "http://jwxt.hzu.gx.cn/($temp[1])/CheckCode.aspx"; //验证码地址 $curl = curl_init(); curl_setopt($curl, CURLOPT_URL, $verify_code_url); curl_setopt($curl, CURLOPT_COOKIEJAR, $cookie); //保存cookie curl_setopt($curl, CURLOPT_HEADER, 0); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); $img = curl_exec($curl); //执行curl curl_close($curl); $fp = fopen("Code.jpg","w"); //文件名 fwrite($fp,$img); //写入文件 fclose($fp); echo "验证码取出完成,正在休眠,15秒内请把验证码填入code.txt并保存\n"; //停止运行15秒 sleep(15);

function login_post($url,$cookie,$post){ $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); //不自动输出数据,要echo才行 curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); //重要,抓取跳转后数据 curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie); curl_setopt($ch, CURLOPT_REFERER, 'http://jwxt.hzu.gx.cn/'); //重要,302跳转需要referer,可以在Request Headers找到 curl_setopt($ch, CURLOPT_POSTFIELDS,$post); //post提交数据 $result=curl_exec($ch); curl_close($ch); return $result; }

$xh='';//此处手动输入学号,上线后通过$_POST得到 $pw='';//此处手动输入密码,上线后通过$_POST得到 $code = file_get_contents("code.txt");//把验证码输入到code.txt中后通过此方法取出验证码 $cookie = dirname(FILE) . '/cookie/'.$_SESSION['id'].'.txt';//取出cookie $url="http://jwxt.hzu.gx.cn/($temp[1])/default2.aspx"; //教务处地址 $con1=login_post($url,$cookie,''); preg_match_all('/<input type="hidden" name="VIEWSTATE" value="([^<>]+)" \/>/', $con1, $view); //获取VIEWSTATE字段并存到$view数组中 $post=array( '__VIEWSTATE'=>$view[1][0], 'txtUserName'=>$xh, 'TextBox2'=>$pw, 'txtSecretCode'=>$code, 'RadioButtonList1'=>'%D1%A7%C9%FA', //“学生”的gbk编码 'Button1'=>'', 'lbLanguage'=>'', 'hidPdrs'=>'', 'hidsc'=>'' ); $con2=login_post($url,$cookie,http_build_query($post)); //将数组连接成字符串

preg_match_all('/([^<>]+)/', $con2, $xm); //正则出的数据存到$xm数组中 $xm[1][0]=substr($xm[1][0],0,-4); //字符串截取,获得姓名

//拼接所需要访问的url,我们需要获取哪个url就去拼接完整的url,此处是获取成绩的url //以后如果需要获取别的数据,就去官网找他的url,看需要哪些参数 $url2="http://jwxt.hzu.gx.cn/($temp[1])/xscjcx.aspx?xh=".$xh."&xm=".$xm[1][0];

$viewstate=login_post($url2,$cookie,''); preg_match_all('/<input type="hidden" name="__VIEWSTATE" value="([^<>]+)" \/>/', $viewstate, $vs);

$state=$vs[1][0]; //$state存放一会post的__VIEWSTATE

//每个页面都有不同的参数请求,根据不同情况来发送不同的参数 $post=array( 'EVENTTARGET'=>'', 'EVENTARGUMENT'=>'', '__VIEWSTATE'=>$state, 'hidLanguage'=>'', 'ddlXN'=>'2016-2017', //当前学年 'ddlXQ'=>'1', //当前学期 'ddl_kcxz'=>'', 'Button1'=>'%B0%B4%D1%A7%C6%DA%B2%E9%D1%AF' //“学期成绩”的gbk编码,视情况而定 );

$content=login_post($url2,$cookie,http_build_query($post));

echo $content;`

lndj commented 6 years ago

手动写验证码?? 略low,可以自动识别的。懒得搞了。