RiskySignal / APKCrawler

APK Crawler for Github, Xiaomi, FossDroid, ApkPure.
MIT License
19 stars 5 forks source link

Crawler for APP Platform

项目中抽离出来的 apk 爬虫模块,支持 ApkPure , Github , Xiaomi , FossDroid .

整个爬虫采用 Scrapy + Mysql 对目标平台上的apk增量进行爬取,大家对这些平台按需爬取,不要影响这些平台的正常运作 :blush: .

目录结构

拷贝项目

  1. 拷贝项目:

    $ cd workspace/
    $ git clone https://github.com/RiskySignal/APKCrawler
    $ cd crawl_for_apk_merge/

数据库Mysql配置

  1. 安装Mysql: 详细可参照 这里, 仅需完成 安装 Mysql配置 Mysql .
  2. 确认在 当前 用户下可以通过命令 mysql -u root -p 登录mysql, 程序中默认的密码为 123456 .
  3. 初始化数据库:

    其中复制 my.cnf 这一步不是必须的,你可以自己配置自己的mysql中的字符集为 utf-8.

    $ cd crawl_for_apk_merge/
    $ sudo cp ./documents/my.cnf /etc/mysql/my.cnf
    $ sudo service mysql restart
    $ mysql -u root -p
    
    mysql> create database apk_merge;
    mysql> source ~/workspace/crawl_for_apk_merge/documents/apk_merge.sql  # 替换项目的路径

爬虫搭建

  1. 需要的 python 版本为 python3.
  2. 进入代码文件夹 cd ./crawl_for_apk_merge/codes.
  3. 安装依赖包 pip install -r requirement.txt.
  4. 爬取 apk python3 main.py --help 可以查看具体的用法,爬取的过程主要与服务器的下载速度和 Market 的 Apk 数量相关.
  5. 直接使用 gui 界面, python3 main_gui.py , 在 windows 上不能使用定时器.

    使用 GUI 前, 请配置 setting.py 最后两项.

下载统计及其他脚本

运行截图

  1. github github

  2. xiaomi xiaomi

  3. Fossdroid fossdroid

  4. ApkPure apkpure

  5. GUI界面 image-20201215194718576

Todo