osm-pl / osm-addr-tools

Address conflation tools, expanded version of https://gist.github.com/balrog-kun/4241509 and friends
3 stars 3 forks source link

Branie pod uwagę SIMC przy wykrywaniu duplikatów #18

Open zibik opened 9 years ago

zibik commented 9 years ago

To zgłoszenie to bardziej zasygnalizowanie problemu pod rozważenie niż zgłoszenie błędu. Otóż, ciągnąc adresy z gminy Laszki@EMUiA: ./merger.py --gugik --terc 1804052 trafiłem na adresy z miejscowości Tuchla oznaczone jako fixme=Duplicate[...] Mamy tam klasyczny przypadek, kiedy są dwie miejscowości o tej samej nazwie - jedna z nich to wieś, a drugie to osada. Posiadają one różne kody SIMC. W związku z tym zastanawiam się - może przy wykrywaniu duplikatów brać również pod uwagę zgodność tagu addr:city:simc= w pobranych danych?

wiktorn commented 9 years ago

Jedyna sytuacja, w której by to coś psuło, to gdy w źródle mamy dla jednej miejscowości podany kod SIMC, a dla drugiej nie. Ale chyba takie rzeczy to się nie zdarzają. Acz widziałem iMPA bez symul-ów.

zibik commented 9 years ago

Jeszcze trochę pomarudzę. Przydałoby się jednak w jakiś sposób zasygnalizować przypadek wystąpienia w danych źródłowych adresów z miejscowości o identycznych nazwach; chyba najlepiej w formie jakiegoś fixme= W obecnej sytuacji w przyszłości na 100% przegapię sprawę, a pasowałoby adresom z osady zmienić addr:place na (przykładowo) addr:place=Tuchla (osada), bo zwykle tak robimy w takiej sytuacji...

wiktorn commented 9 years ago

Czyli duplikatami oznaczamy:

zibik commented 9 years ago

Sam nie wiem... mnie właściwie potrzebna jest tylko informacja (zawarta w fixme=), że w danej gminie są różne miejścowości o takiej samej nazwie. To obudzi moją czujność ;-)