codeforjapan / codeforelection

衆院選2017候補者データベース作成プロジェクト This repo will be archived 🗄️ in the future
MIT License
32 stars 6 forks source link

GrayDB: 候補者データの重複 #44

Closed takahashim closed 7 years ago

takahashim commented 7 years ago

現在GrayDBの候補者データで名前が重複しているレコードが4件あります。

このうち、前者2件は別人(伊藤達也氏は自民と共産、金子恵美氏は「かねこえみ」無所属と「かねこめぐみ」自民)なのでこのままにしておきます。 後者2件は、どちらも共産で小選挙区と比例で別々にレコードができてしまったもののようです。情報はマージして、GrayDBIdの番号の若い方を残して大きい方を削除しておきます。

takahashim commented 7 years ago

あー、でもこれって素朴にマージできないのか…。N列の「都道府県」の番号って、比例と小選挙区の両方に使われているので、小選挙区に寄せると比例の番号の情報がレコードに残らないですね…

AZ列に「比例区番号」カラムを追加するべきですか?(P列の「比例区」はテキストだし表記ゆれもあるようなのでキーとしては微妙)

hkwi commented 7 years ago

じっくり見比べると「伊藤達也」さんは同姓同名の別人みたいですね。共産党のかたのほうの blog URL に自民党のかたのが混じっていたようなので、外しておきました。

hkwi commented 7 years ago

「池内沙織」さんはGrayDBの登録上も別人で登録されてますね。重複っぽいのは「梅村早江子」さんですが、wikidata Q name が同一なので、そんなに副作用は大きくなさそう(=上手にマージできると思う)

higa4 commented 7 years ago

GrayDBについて下記2点、問題無ければ夜にでもメンテしておきます。 1.276行目と278行目に同じ「Q18669603池内沙織」が2行あるのでマージして1行にしたい。 2.279行目と281行目にQ番号は異なるが同じ「北条智彦」が字体違いで2行あるので、wikidata、GrayDBともひとつにマージしたい。

takahashim commented 7 years ago

確かに「Q41770466:北条智彦」が間違いで「Q41769950:北條智彦」が正しそうですね。 「Q18669603:池内沙織」と「Q18700742:梅村早江子」も問題なければマージしておいていただければ。

higa4 commented 7 years ago

池内沙織、梅村早江子、北條智彦をGrayDB上ひとつにマージし、北條智彦はwikidata上もひとつにマージしました。 https://www.wikidata.org/wiki/Q41769950

takahashim commented 7 years ago

@higa4 ありがとうございます! おー、Wikidataはマージされるとちゃんと転送されるんですね。便利。