daisuke19891023 / covid19-yamanashi-scraping

MIT License
4 stars 1 forks source link

患者情報を新フォーマットのページから取得する #68

Closed daisuke19891023 closed 4 years ago

daisuke19891023 commented 4 years ago

divで囲われていない素のhtmlからテキスト読み取りを行う

imabari commented 4 years ago

患者情報スクレイピングできました https://imabari.hateblo.jp/entry/2020/06/11/165653

daisuke19891023 commented 4 years ago

@imabari ありがとうございます!ブログのコードを参考にしたら患者情報のスクレイピングが出来るようになりました!

imabari commented 4 years ago

60件までのpatientsからpatients_summaryを作るとdata.jsonとの差が多いのですが原因わかりますか? https://github.com/covid19-yamanashi/covid19/blob/development/data/data.json

patients_summaryはこちらで作成 https://github.com/imabari/covid19-data/blob/master/yamanashi/main.py

daisuke19891023 commented 4 years ago

フォーマット変更が発生するまでは、patientsとpatients_summaryで利用する日付項目にずれがありました

imabari commented 4 years ago

承知しました リリース日より発生判明日の方に変更しているところが多いですね 山梨県のデータは変換するのが難しいのでPDFのときは途中でやめました

imabari commented 4 years ago

data.jsonのpatientsの4/16に「山」と「女」が文字コードが違う漢字が入ってます