codeforjapan / codeforelection

衆院選2017候補者データベース作成プロジェクト This repo will be archived 🗄️ in the future
MIT License
32 stars 6 forks source link

月末までのデータの整備についてのタスク整理 #60

Open tetsuyas1 opened 7 years ago

tetsuyas1 commented 7 years ago

@nyampire  

タスクを整理していきたいです。 Excelレベルでデータメンテナンスに協力してくれる人がいるので タスク化しておいてもらえると一日数時間でもちょいちょい人手で整備をすることができます。 SNSアカウントの取得の自動化/省力化も合わせて検討していきます。

tetsuyas1 commented 7 years ago

都道府県知事や参議院の件です。都道府県議会議員はどうするのかなど。

hkwi commented 7 years ago

参議院>今思い付きで http://www.sangiin.go.jp/japanese/joho1/kousei/giin/194/giin.htm のページをコピーして google spread sheet に貼りつけたら一覧が一撃でできてしまった!! https://docs.google.com/spreadsheets/d/1sL6IaDdNyBQM1AI2br6P2ZVd0qex9uFMIsnq28AKIBo/edit?usp=sharing

higa4 commented 7 years ago

以下のようなデータは一般向けにも公開できると良いと思います。

nyampire commented 7 years ago

都道府県議会議員は、今回の作業のスコープ外でよいと思います。(mySocietyにも、やらない、ということで同意とれています)

参議院は上記でリストができた(!)ので、GrayDBにシートつくります。 都道府県知事は @higa4 さんが前にリストつくってた、と言っていたような? もし勘違いだったらすみません。

nyampire commented 7 years ago

備忘:mySocietyからきているシートのなかで、Facebook URLというものがあって、mySocietyに確認しています。

Facebook URLが「個人のID」なのか「Facebook Page」のどちらなのか。両方ある場合にどちらをカラムに入れるべきか。

higa4 commented 7 years ago

@nyampire 都道府県知事はwikidataに入っています。下記は都道府県から知事の一覧を抜いたものですがQ番号しか出ていないので、知事の属性が必要ならヒトから知事の経験者を抜いたほうが良いのかもしれない。 >誰かSPARQL使えるるヒトお願い http://tinyurl.com/y85snzhc

tetsuyas1 commented 7 years ago

ちょっとスレ違いですが、基本的にFacebookUrlについては、FacebookPageを使うのがFacebookの運用ポリシーにもそっているような気がしますので、原則FacebookPageを使い、個人ページは出さないのがいいと思います。どうでしょう?

FacebookページをベースにするポリシーのPros/Cons

Pros

hkwi commented 7 years ago

Facebook page は Facebook の収益事業として設定されたというのはあります。ただ個人ページを出さないというのが facebook の policy …かどうかはちょっと見つけられませんでした。Facebook ページは事務所が運営していることも多いので、データベースとしては両方整備しておいて、どう使うかは利用者に委ねるのが良いかと思いましたが、どうでしょうか。

tetsuyas1 commented 7 years ago

個人アカウントページからFBページへの移行を推奨していたのは個人的にFBの営業さんから話を聞いたのが原点です。今はどうなっているのか?ですが、基本的に変わらないと思います(多分)。ちょっと面白いので調べてみます

takahashim commented 7 years ago

http://tinyurl.com/y85snzhc

は存在しない過去の都道府県?が入っていたので除外して、知事の名前も表示するようにしたSPARQLが以下です http://tinyurl.com/yayb8bv7

takahashim commented 7 years ago

http://tinyurl.com/ycd6c69l 順番がバラバラだとわかりづらいので、都道府県コード順に並べてみました

nyampire commented 7 years ago

Facebook URLの件、mySocietyから回答がありました。 個人IDとpages、どっちでもいいけど、どちらかというとpagesのほうがよい、とのこと。

We have a tool that can normalise the URLs for Facebook which can help - the Facebook URL can be for either personal profile or pages but we prefer pages if they are available.

https://github.com/codeforjapan/codeforelection/issues/60#issuecomment-336678542

nyampire commented 7 years ago

参議院と都道府県知事については別途Issueをたてたのでそちらで。

衆議院選挙については、22日まではだいたい以下の作業と思っています。 抜け漏れあったら指摘いただきたくです。

22日以降、GrayDBで、当選者に対してフラグをたてる作業が必要です。

tetsuyas1 commented 7 years ago

FB,TWのアカウントの件ですが 候補を機械的に抽出する仕組みを作りました。 メディア報道で把握した立候補者について処理したものが下記になります。 下記のシートをExcelなどで開いて、正解列に1を入れるなどしていけば、ある程度機械的に入ると思います。 https://github.com/codeforjapan/codeforelection/blob/master/data/graydb/haaku_sns_results.sjis.csv

もっとも、明らかにとれてないものもあります。 APIを使っているbingの検索精度がネックになっています。 google を使えると良さそうなのですが、作成した段階ではgoogleの検索APIが使えると思ってませんでした。。

nyampire commented 7 years ago

ありがとうございます。 では、作業としてはこんなかんじでしょうか。

tetsuyas1 commented 7 years ago

それでいいと思います

hkwi commented 7 years ago

残念ながら、結構同姓同名の別人が入っているようです…。

higa4 commented 7 years ago

同姓同名は、誕生日もチェックできると精度が上がるとは思います。機械的に可能かはわかりませんが

higa4 commented 7 years ago

Excelレベルでデータメンテナンスに協力してくれる人がいるのでタスク化しておいてもらえると一日数時間でもちょいちょい人手で整備をすることができます。

この件で、過去の衆議院選の結果は立候補者の当選回数をはじめとして統計的にいろいろ参考になる情報なのですが、立候補者ごとに探すのは効率が悪すぎるので、各衆議院選挙の結果一覧から一括してwikidataを更新することを考えています。第40回くらいから第47回(前回)までの衆議院選結果をwikipediaをみながら表形式に整理して頂けると一括してwikidataに登録できるため大変ありがたいです。もしお手伝い頂ける方がおられましたら下記シートにて作業お願いします。 https://docs.google.com/spreadsheets/d/1bxFWmlFr81jaDnvVE31rQXSdsD3JuIuxUDTWBTHn9_Q/edit#gid=0

nyampire commented 6 years ago

@higa4 さんからの最後の質問を別Issueにして対応する。