codeforjapan / codeforelection

衆院選2017候補者データベース作成プロジェクト This repo will be archived 🗄️ in the future
MIT License
32 stars 6 forks source link

第48回衆議院総選挙「前」の議員データベース #73

Open hkwi opened 7 years ago

hkwi commented 7 years ago

前期分のデータベース整備の話です。#60 の最後で @higa4 さんが提案されている過去データ化作業の一部です。

第47回衆議院総選挙の結果は Wikipedia によくまとまっているので、それを wikidata に転載する作業で行けそうです。これらは Q4638550 「第47回衆議院議員総選挙」に結びつきます。

総選挙後の変化を含めて、48回総選挙直前の議員構成を衆議院ホームページの weyback machine アーカイブから抜き出してみました。これらは Q41654707 に結びつきます。 https://docs.google.com/spreadsheets/d/1IINDQ_I3sIbZlFI39gspTGGjxMDFhadE3TmSZ6Y2oSs/edit

どちらも構成する人物はほぼ一致するので、同一のシートで作業しましょうか。

hkwi commented 6 years ago

選出選挙の紐づけかたに、悩んでいます:

hkwi commented 6 years ago

小選挙区で欠員が出ていたときに、比例区で繰り上がり当選した人が補欠選挙に出馬して、当選するという流れもあるんですね。議員としての履歴は連続しているけれども、任期の途中で選出選挙の対応が変わる(比例選出→小選挙区選出)という…。

higa4 commented 6 years ago

勉強になりますw 小選挙区の補欠選挙、比例区の繰り上げ当選、さらにはそのあわせ技については、個々の選挙に名前を付ける慣習がなさそうなので、無理にアイテムを作らないほうが良さそうな気がします。 後継 (P1366)というプロパティで後任を表現できるので、選挙としてはあくまで第47回などの統一選でくくることにして、そこに議席があってそれを引き継ぐという形で(必要に応じて開始日、終了日を付けて)表現するということでどうでしょう。

hkwi commented 6 years ago

とりあえず問題の出ない範囲のデータだけ差分を出すようにしてみます。出馬時の政党や候補者一覧はやはり別途収集したほうがよさそう。 https://github.com/hkwi/shuin48pre/blob/master/docs/wikidata_term_for_47ge.csv https://github.com/hkwi/shuin48pre/blob/master/docs/wikidata_P3602_Q4638550.csv

hkwi commented 6 years ago

Wikidata のモデル制約と日本の法律が合わないのは仕方が無いものとあきらめつつ、「嘘はつかない」「冗長なものは許す」「コンテキスト不足も許す」という方針で行くのが良いかも、と思いつつあります。ファクト個々を細かく分離して入れるとそれなりに入るかも。

苦心している既知のポイントは:

hkwi commented 6 years ago

立候補者一覧はまずは一旦 http://www.asahi.com/senkyo/sousenkyo47/ から引き出す予定。