Open anjia opened 5 years ago
https://pywb.readthedocs.io/en/latest/
Webrecorder pywb 是 python 的一个功能完备的、高级 web 归档捕获和重播框架。它提供了命令行工具,高保真 Web 存档访问。版本 2.0
pywb 是功能完备的 web archive replay 系统,也叫 wayback machine,提供 replay, view, archived。
pywb 有很多命令行,先来看两个入门的
wb-manager
wayback(pywb)
想要创建一个 WARC 文件,可查看 Creating a Web Archive
安装了 pywb tool-suite 之后,就能用下面的 command-line apps 了。所有的 serve 工具都有不同的默认端口,当然你也可以覆盖它。
cdx-indexer
cdx-indexer -h
wb-manager init <coll>
wb-manager add <coll> <warc>
matadata.yaml
wb-manager -h
warcserver
config.yaml
wayback (pywb)
wayback
live-rewrite-server
pywb 提供了一种可扩展的 YAML , 基于配置格式,通过 config.yaml, 在每一个 web archive 的根目录。
https://pywb.readthedocs.io/en/latest/manual/configuring.html#configuring-pywb
在没有客户端URL重写的情况下,提供可能更好的重放。 通过 --proxy,即 wayback --proxy my-web-archive
wayback --proxy my-web-archive
sudo pip3 install pywb --user ## 1. 运行已经存在的 wayback --proxy WBEZ --port 8321 proxychains4 /Users/anjia/quantum/servo/mach run -r --certificate-path proxy-certs/pywb-ca.pem https://www.wbez.org/ ## 2. 录制自己的 wb-manager init 360 wayback --proxy 360 --live --proxy-record --autoindex --port 8321 proxychains4 /Users/anjia/quantum/servo/mach run -r --certificate-path proxy-certs/pywb-ca.pem http://localhost:8321/360/record/https://www.360.cn/ proxychains4 /Users/anjia/quantum/servo/mach run -r --certificate-path proxy-certs/pywb-ca.pem https://www.360.cn/ ## 3. 测试 wayback --proxy 360 --port 8321 proxychains4 /Users/anjia/quantum/servo/mach run -r --certificate-path proxy-certs/pywb-ca.pem https://www.360.cn/
e.g.
# 运行一个已存在的 archive wayback --proxy WBEZ --port 8321 # WEBZ 是一个已经存在的文件夹,也称为 Collection # --port 8321 是配置的端口,在 proxychains.conf 里 ## 就可以配置浏览器 Proxy Settings 到特定的端口了,再加载特定的 url,就会加载最新的 archive copy 了 wayback --proxy my-web-archive # 启动pywb,开启代理模式访问 proxychains4 ${SERVO_DIRECTORY}/mach run -r --certificate-path proxy-certs/pywb-ca.pem https://www.wbez.org/ proxychains4 ./mach run -r --certificate-path proxy-certs/pywb-ca.pem https://www.wbez.org/ ## other wayback --record --live -a --auto-interval 10 # http://localhost:8321/360/record/https://www.360.cn/ # 在浏览器中访问
Creating and viewing WARC web archives in Servo
pywb
Webrecorder pywb 是 python 的一个功能完备的、高级 web 归档捕获和重播框架。它提供了命令行工具,高保真 Web 存档访问。版本 2.0
pywb 是功能完备的 web archive replay 系统,也叫 wayback machine,提供 replay, view, archived。
pywb 有很多命令行,先来看两个入门的
wb-manager
命令行工具,管理常见 collection 的操作,查看更多wayback(pywb)
启动一个 web server 提供访问 web archives,查看更多Command-Line Apps
安装了 pywb tool-suite 之后,就能用下面的 command-line apps 了。所有的 serve 工具都有不同的默认端口,当然你也可以覆盖它。
cdx-indexer
cdx-indexer -h
可以查看所有的 optionswb-manager
wb-manager init <coll>
wb-manager add <coll> <warc>
matadata.yaml
wb-manager -h
warcserver
config.yaml
里的所有 collectionswayback (pywb)
wayback
application 被安装 (pywb是同样的application,以后可能就都用它了)config.yaml
live-rewrite-server
wayback
的快捷方式(shorcut), 但是只要 [Live Web Collection]()Configuring the Web Archive
pywb 提供了一种可扩展的 YAML , 基于配置格式,通过
config.yaml
, 在每一个 web archive 的根目录。HTTP/S Proxy Mode Access
在没有客户端URL重写的情况下,提供可能更好的重放。 通过 --proxy,即
wayback --proxy my-web-archive
servo-warc-tests
e.g.