Closed sassy closed 6 years ago
うちの環境だと以下のエラーで動作しないみたいです。。。
Traceback (most recent call last):
File "script/get_hinanjo_content.py", line 57, in <module>
get_higaijokyo_content()
File "script/get_hinanjo_content.py", line 30, in get_higaijokyo_content
content = urllib.request.urlopen(req)
File "/Users/kkd/.pyenv/versions/3.6.5/lib/python3.6/urllib/request.py", line 223, in urlopen
return opener.open(url, data, timeout)
File "/Users/kkd/.pyenv/versions/3.6.5/lib/python3.6/urllib/request.py", line 532, in open
response = meth(req, response)
File "/Users/kkd/.pyenv/versions/3.6.5/lib/python3.6/urllib/request.py", line 642, in http_response
'http', request, response, code, msg, hdrs)
File "/Users/kkd/.pyenv/versions/3.6.5/lib/python3.6/urllib/request.py", line 570, in error
return self._call_chain(*args)
File "/Users/kkd/.pyenv/versions/3.6.5/lib/python3.6/urllib/request.py", line 504, in _call_chain
result = func(*args)
File "/Users/kkd/.pyenv/versions/3.6.5/lib/python3.6/urllib/request.py", line 650, in http_error_default
raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 404: Not Found
@kkd
リンク先が404なんですよね。。。 古いPDFは消されてしまうのですが、新しいのが更新されていないのですね。
40 に対応するスクリプトです。
正直不完全ですが、できる限りCSVで出力できるところはCSVにしましたが、 表で複数行に渡るときは失敗してしまうので、 そこは手作業で修正する必要があります。
もう少し頑張ろうと思いますが、時間を書けるのもよろしくないと思うので、 できたところまで取り急ぎ。