Closed nyampire closed 6 years ago
mySociety(Matt)から、「参議院の議員のスクレイピングをしたいのだけど、どこがオススメ?」と聞かれています。
メモ:参議院の議員の顔写真については、参議院に対して利用許諾を得る必要がありそう。
ホームページに掲載している写真等の画像については、無断で転載・複製することはできません。写真等の画像を使用したい場合は、webmaster@sangiin.go.jpへお問い合わせください
参議院、いきなり「アントニオ 猪木 [猪木 寛至]」と通称表記で頭をかかえているw
都道府県知事の方は http://tinyurl.com/yazwajuo の方がたくさん情報がとれるのでどうぞ
SPARQL使いこなしてますねーすごい!
参議院の方も試してみました http://tinyurl.com/ya6ce6q5 が、終了日(P582)の情報が入ってないので過去の参議院議員も出てきて役に立たなさそうですね…。
参議院は解散総選挙みたいな仕組みではないので、Term で絞り込むこともできず、むむむ、どういう方法がいいんだろう。
おー、ありがとうございます!
wikidataからは、ひとまずあるだけ抜ければそれでよいと思っていて、このCSVをもとにVLOOKUPで引っ張れば、いまあるデータとしては十分なんじゃないかと思います。氏名の重複には気をつけないといけないですが、とりあえずwikidata idが欲しい。
mySocietyからの質問「参議院のデータ、スクレイピングするのにどのサイトがいいのかな」って、もしかして、過去の新聞社の選挙サイトみたいなものをイメージしてるのかな。。。(例:こういうの)
ちょっと権利的にグレーな気がしているから、あまりオススメはできない気がするのだけど、参議院議員であればほとんど増減ないだろうし、元データにしたいのはわかる。
とりあえずできる範囲で Q name 埋めてみた。
参議院のリスト、見た限り「別名」フィールドが欲しいですね…。特に女性で旧姓を使われている方が散見されます。 それとも「名前(フル)」を「名前(姓)」+「名前(名)」じゃないものにしてしまってもいいんでしょうか。「橋本聖子」「石崎」「聖子」のような形です。
ちょっと参議院のデータを見てみましたが、礒崎哲史氏はWikipediaでは「【磯】崎哲史」になってますね…。これはWikipediaを修正するべきなんでしょうか。 https://ja.wikipedia.org/wiki/%E7%A3%AF%E5%B4%8E%E5%93%B2%E5%8F%B2 ちなみに「礒崎陽輔」氏はそのまま登録されています。 https://ja.wikipedia.org/wiki/%E7%A4%92%E5%B4%8E%E9%99%BD%E8%BC%94
公明の竹内真二氏以外のqidを埋めました。竹内氏だけWikipediaに登録されてなさそう…。
GrayDB上に別名フィールドをつくりました。mySocietyのシートにも、alt_nameとしてカラムを作成しました。
Wikipedia側がまちがっていそうなエントリ "礒崎哲史 / 磯崎哲史" については、どういう対応がよいのか、Wikipediaのひとに聞いてみます。
https://github.com/codeforjapan/codeforelection/issues/64#issuecomment-337113564
Wikipediaのページ「礒﨑哲史」に関しては、リダイレクトなど、必要そうな作業をやってくれるそうです。 今日明日くらいには完了する予定、とのことです。(ありがたい)
知事に関してはひとまず完了しました。
Wikipediaのページ「礒﨑哲史」に関して、知人のWikipedianが以下の修正をしてくれました。 リダイレクトで正しいURLに到達できるようになっています。
記事名を「礒崎哲史」としました。
「礒崎哲史」本文右側に本来は「﨑」だというタグ表示を加えました。
本文中の﨑はそのままです。
「礒﨑哲史」「磯崎哲史」でも「礒崎哲史」に転送されます。
ウィキペディアを全文検索して、磯崎を礒﨑に変更し礒崎に飛ぶようにしました。漏れがなければウィキペディア日本語版の記事内には磯崎哲史の文字列はなくなったはずです。
参議院のデータを作成中です。
2点、氏名に関して、ちょっと気になるところがあります。
「アントニオ猪木」のパースにとても違和感がある。性と名を分ける必要がないかも? フルネーム:アントニオ猪木 名:猪木 姓:アントニオ 別名:猪木寛至
「蓮舫」の姓名で、姓がnullになるけど大丈夫? フルネーム:蓮舫 名:蓮舫 姓: -null-
シート上では、「名前(フル)」のコメントには「本名」と書いてあるので、「猪木寛至」が正になりそう。 「アントニオ猪木」は分割不能な 1 word で、「姓+名」ではないので、これ単体で名前として登録するしかないと思います。それは「蓮舫」も同様で。 ただし wikidata 上でのラベル名が「本名」であるべきか、一般的に認識されている「名称」であるかは、ちょっとわかりません。通称のほうがラベル名であるべき気はします。
ありがとうございます。 いちおう、本名のほうにシートを直しておきました。 でもそうすると、他の、旧姓で政治活動してるかたも本名にするべきなのかもしれないと思っていて、wikidataの情報を更新するときなどに、別名に値があるひとは注意が必要かも。
参議院、ひとまず100まで終わりました。あと150くらい。時間はかかりますが、候補者よりも圧倒的にサイトが整備されているので、流れ作業です。
ここまでのところ、どうしようかポイントは以下です。
根拠となる法律が違ったような…参議院合同選挙区とかは、個別にエントリを作るべきな気がする…
"竹内真二"さんのWikidata登録 こちら Q42323636で登録しました。
参議院の選挙区の記載方法は、僕からmySocietyに確認します。
たぶん、都道府県番号を列挙するレベルでよいと思う。いちおう、参議院の選挙区はwikidataにIDがあるみたいなので、調べようと思えば調べて入力可能な状態。
参議院議員のシートを埋めました。
参議院のページと本人のウェブページでは、平山佐知子の所属政党が民進党と書いてあるのですが、wikipediaでは無所属になっていて、民進党のページでも404になっていたので、離党したのかも。
このへん、マスターがどこになるのか、経緯なども含めて非常にわかりづらいですね。。。
集めたのでクローズ
mySocietyに渡すためのリストを作成する。
参議院については https://github.com/codeforjapan/codeforelection/issues/60#issuecomment-336619089 で作成された一覧をもとにリストを作る。
都道府県知事 についても同様。