wongzeon / ICP-Checker

ICP备案查询,可查询企业或域名的ICP备案信息,自动完成滑动验证,保存结果到Excel表格,适用于新版的工信部备案管理系统网站,告别频繁拖动验证,以及某站*工具要开通VIP才可查看备案信息的坑
GNU Affero General Public License v3.0
537 stars 89 forks source link

2023-11-27 21:00:00 失效了~求大佬修复下 #40

Open liupan-hi opened 9 months ago

liupan-hi commented 9 months ago

2023-11-27 21:00:00 失效了~求大佬修复下

wongzeon commented 9 months ago

嗯嗯,了解了

fesiong commented 9 months ago

坐等大佬修复

wongzeon commented 9 months ago

坐等大佬修复

工信部官方的更新有问题,正常翻页无论如何都提示“非法请求,验证码不匹配!!!”等他们修复后,再弄吧😂

ST0new commented 9 months ago

使用了几次就被创宇盾拦截了

wongzeon commented 9 months ago

使用了几次就被创宇盾拦截了

嗯,这次更新官方调低了使用率限制,短时间查的次数过多,就会被拉黑IP。等他们弄完吧,上面的bug到现在还没好

netcccyun commented 9 months ago

估计这下只能想办法识别点选验证码了,没法像之前那样绕过验证码。我还试了 https://ocr.zhu.ee/docs#/ 也不行,因为工信部那个点选验证码是5个字点4个字,而且识别准确率不高。

adsl2100e commented 9 months ago

ICP-Checker.py 似乎出问题了,无法使用,验证部分的错误? 1701413938151

xiaoliusec commented 9 months ago

报错:error:Expecting value: line 1 column 1 (char 0)

xuebaohua commented 9 months ago

估计这下只能想办法识别点选验证码了,没法像之前那样绕过验证码。我还试了 https://ocr.zhu.ee/docs#/ 也不行,因为工信部那个点选验证码是5个字点4个字,而且识别准确率不高。

估计要搞神经网络,而且他的背景图和文字有点难区分

xuebaohua commented 9 months ago

估计这下只能想办法识别点选验证码了,没法像之前那样绕过验证码。我还试了 https://ocr.zhu.ee/docs#/ 也不行,因为工信部那个点选验证码是5个字点4个字,而且识别准确率不高。

估计要搞神经网络,而且他的背景图和文字有点难区分 image image

zzl221000 commented 9 months ago

估计这下只能想办法识别点选验证码了,没法像之前那样绕过验证码。我还试了 https://ocr.zhu.ee/docs#/ 也不行,因为工信部那个点选验证码是5个字点4个字,而且识别准确率不高。

估计要搞神经网络,而且他的背景图和文字有点难区分 image image

检测模型很简单,直接生成数据就行,用yolo准确率可以到99% val_batch1_pred

wongzeon commented 9 months ago

估计这下只能想办法识别点选验证码了,没法像之前那样绕过验证码。我还试了 https://ocr.zhu.ee/docs#/ 也不行,因为工信部那个点选验证码是5个字点4个字,而且识别准确率不高。

估计要搞神经网络,而且他的背景图和文字有点难区分

image

image

检测模型很简单,直接生成数据就行,用yolo准确率可以到99%

val_batch1_pred

检测的话,用ddddocr可以直接取出来,准度也很高,就是不返回文字比较麻烦

liupan-hi commented 9 months ago

估计这下只能想办法识别点选验证码了,没法像之前那样绕过验证码。我还试了 https://ocr.zhu.ee/docs#/ 也不行,因为工信部那个点选验证码是5个字点4个字,而且识别准确率不高。

估计要搞神经网络,而且他的背景图和文字有点难区分

image

image

检测模型很简单,直接生成数据就行,用yolo准确率可以到99% val_batch1_pred

检测的话,用ddddocr可以直接取出来,准度也很高,就是不返回文字比较麻烦

是的,需要检测后识别文字,我测试用ddddocr识别效果很差,基本上不可用

zzl221000 commented 9 months ago

检测的话,用ddddocr可以直接取出来,准度也很高,就是不返回文字比较麻烦

@wongzeon 换个思路,用孪生网络训练相似度模型,骨干网络可以用resnet和vgg,目前训练下来匹配率基本100%,就是模型速度太慢了,只有16fps,骨干网络换mobileone和fastvit都无法拟合,感觉是超参没调好

xuebaohua commented 9 months ago

检测的话,用ddddocr可以直接取出来,准度也很高,就是不返回文字比较麻烦

@wongzeon 换个思路,用孪生网络训练相似度模型,骨干网络可以用resnet和vgg,目前训练下来匹配率基本100%,就是模型速度太慢了,只有16fps,骨干网络换mobileone和fastvit都无法拟合,感觉是超参没调好

我觉得也要用孪生网络来搞,可疑参考这个: #https://github.com/MgArcher/Text_select_captcha 但是模型得自己训练一套,他这个不合适。我现在不会生成孪生网络要用的样本.....

zzl221000 commented 9 months ago

@xuebaohua 我这有样本 char2000.zip 需要的话我可以提供生成样本的代码

XiangtingLee commented 9 months ago

可以先关注我公众号 Python实验楼,后续整理好会发出来 image

wongzeon commented 9 months ago

可以先关注我公众号,后续整理会发出来

image

很强👍,公众号名字是啥,关注蹲一波

zhuibo66 commented 9 months ago

大佬们,插楼问下,为什么现在postman访问,都直接被创宇盾拦截了,有点奇怪,但是用浏览器访问又没问题,是什么原因,没理解,header中能带的都带上了,求解

wongzeon commented 9 months ago

大佬们,插楼问下,为什么现在postman访问,都直接被创宇盾拦截了,有点奇怪,但是用浏览器访问又没问题,是什么原因,没理解,header中能带的都带上了,求解

要看是哪一步,估计是header没带全,或者post的数据内容不对,还有就是频率太高也会被拦

zhuibo66 commented 9 months ago

大佬们,插楼问下,为什么现在postman访问,都直接被创宇盾拦截了,有点奇怪,但是用浏览器访问又没问题,是什么原因,没理解,header中能带的都带上了,求解

要看是哪一步,估计是header没带全,或者post的数据内容不对,还有就是频率太高也会被拦 表示能在浏览器中看到的header中都带上了 image

coolxitech commented 9 months ago

大佬们,插楼问下,为什么现在postman访问,都直接被创宇盾拦截了,有点奇怪,但是用浏览器访问又没问题,是什么原因,没理解,header中能带的都带上了,求解

要看是哪一步,估计是header没带全,或者post的数据内容不对,还有就是频率太高也会被拦 表示能在浏览器中看到的header中都带上了 image

第一次情况需要获取cookie,后面的请求都带cookie。这样可以解决直接拦截,但频率过高还是会拦截,目前可以尝试接入代理。 PHP开源代码

netcccyun commented 8 months ago

可以先关注我公众号 Python实验楼,后续整理好会发出来 image

请问整理好了没有

XiangtingLee commented 8 months ago

可以先关注我公众号 Python实验楼,后续整理好会发出来 image

请问整理好了没有

公众号刚发出来了,可以去看下

xiaoliusec commented 8 months ago

大佬什么时候能修复下

coolxitech commented 8 months ago

大佬什么时候能修复下

修不了,有验证码了,需要接入验证码识别,作者公众号有教搭建模型训练来识别,省事可以接入打码平台。

xiaoliusec commented 8 months ago

大佬什么时候能修复下

修不了,有验证码了,需要接入验证码识别,作者公众号有教搭建模型训练来识别,省事可以接入打码平台。

ICP_Query 这个项目有训练的模型自动打码,就是速度比较慢

XiangtingLee commented 8 months ago

大佬什么时候能修复下

修不了,有验证码了,需要接入验证码识别,作者公众号有教搭建模型训练来识别,省事可以接入打码平台。

ICP_Query 这个项目有训练的模型自动打码,就是速度比较慢

看了他的原理,用的PaddlePaddle做的OCR,速度应该主要慢在这里了,孪生网络根本不用关心是什么字

xiaolaodiya commented 7 months ago

使用了几次就被创宇盾拦截了

嗯,这次更新官方调低了使用率限制,短时间查的次数过多,就会被拉黑IP。等他们弄完吧,上面的bug到现在还没好

上面的bug好像已经修复了,现在还有办法进行查询吗

coolxitech commented 7 months ago

使用了几次就被创宇盾拦截了

嗯,这次更新官方调低了使用率限制,短时间查的次数过多,就会被拉黑IP。等他们弄完吧,上面的bug到现在还没好

上面的bug好像已经修复了,现在还有办法进行查询吗

代理+打码 可以完美拉数据

HG-ha commented 6 months ago

大佬什么时候能修复下

修不了,有验证码了,需要接入验证码识别,作者公众号有教搭建模型训练来识别,省事可以接入打码平台。

ICP_Query 这个项目有训练的模型自动打码,就是速度比较慢

更新提供了yolo8+孪生神经网络相似度检测,性能成功提升到10ms左右,但目前训练用的文字数量和数据较少,且数据是模拟的,准确率待提升。等有空了搞个更准确的模型,或者看看有没有好心人贡献模型到项目中吧。当前项目中的检测模型和相似度检测模型都是可以直接替换的,关注后续更新吧。 目前可以前往在线地址体验:https://hg-ha.github.io/app/icpb/

xiaolaodiya commented 6 months ago

大佬什么时候能修复下

修不了,有验证码了,需要接入验证码识别,作者公众号有教搭建模型训练来识别,省事可以接入打码平台。

ICP_Query 这个项目有训练的模型自动打码,就是速度比较慢

更新提供了yolo8+孪生神经网络相似度检测,性能成功提升到10ms左右,但目前训练用的文字数量和数据较少,且数据是模拟的,准确率待提升。等有空了搞个更准确的模型,或者看看有没有好心人贡献模型到项目中吧。当前项目中的检测模型和相似度检测模型都是可以直接替换的,关注后续更新吧。 目前可以前往在线地址体验:https://hg-ha.github.io/app/icpb/

新版的yolo8+孪生神经网络相似度检测速度确实快了一点,但是准确度确实一塌糊涂

HG-ha commented 6 months ago

大佬什么时候能修复下

修不了,有验证码了,需要接入验证码识别,作者公众号有教搭建模型训练来识别,省事可以接入打码平台。

ICP_Query 这个项目有训练的模型自动打码,就是速度比较慢

更新提供了yolo8+孪生神经网络相似度检测,性能成功提升到10ms左右,但目前训练用的文字数量和数据较少,且数据是模拟的,准确率待提升。等有空了搞个更准确的模型,或者看看有没有好心人贡献模型到项目中吧。当前项目中的检测模型和相似度检测模型都是可以直接替换的,关注后续更新吧。 目前可以前往在线地址体验:https://hg-ha.github.io/app/icpb/

新版的yolo8+孪生神经网络相似度检测速度确实快了一点,但是准确度确实一塌糊涂

如果有人提供真实完整的数据集,准确度是可以有很大提升的,我不会在这上面浪费时间

coolxitech commented 6 months ago

大佬什么时候能修复下

修不了,有验证码了,需要接入验证码识别,作者公众号有教搭建模型训练来识别,省事可以接入打码平台。

ICP_Query 这个项目有训练的模型自动打码,就是速度比较慢

更新提供了yolo8+孪生神经网络相似度检测,性能成功提升到10ms左右,但目前训练用的文字数量和数据较少,且数据是模拟的,准确率待提升。等有空了搞个更准确的模型,或者看看有没有好心人贡献模型到项目中吧。当前项目中的检测模型和相似度检测模型都是可以直接替换的,关注后续更新吧。 目前可以前往在线地址体验:https://hg-ha.github.io/app/icpb/

新版的yolo8+孪生神经网络相似度检测速度确实快了一点,但是准确度确实一塌糊涂

如果有人提供真实完整的数据集,准确度是可以有很大提升的,我不会在这上面浪费时间

就是缺训练模型的包,数据倒不是问题,目前我也想实现本地化。

valucn commented 6 months ago

使用在线工具: https://www.beianx.cn

coolxitech commented 6 months ago

使用在线工具: https://www.beianx.cn

关你网站啥事啊?

chenyubupt commented 6 months ago

-Checker.py 似乎出问题了,无法使用,验证部分的错误?

+1

coolxitech commented 6 months ago

-Checker.py 似乎出问题了,无法使用,验证部分的错误?

+1

建议查一下是不是CDN拦截,这是目前最麻烦的问题,策略挺严的,得靠代理来跑批量数据.

ravizhan commented 5 months ago

课余时间做的,YOLOv8+孪生网络,个人感觉还行 https://github.com/ravizhan/ICP-spider/