Open zibik opened 9 years ago
Jedyna sytuacja, w której by to coś psuło, to gdy w źródle mamy dla jednej miejscowości podany kod SIMC, a dla drugiej nie. Ale chyba takie rzeczy to się nie zdarzają. Acz widziałem iMPA bez symul-ów.
Jeszcze trochę pomarudzę. Przydałoby się jednak w jakiś sposób zasygnalizować przypadek wystąpienia w danych źródłowych adresów z miejscowości o identycznych nazwach; chyba najlepiej w formie jakiegoś fixme= W obecnej sytuacji w przyszłości na 100% przegapię sprawę, a pasowałoby adresom z osady zmienić addr:place na (przykładowo) addr:place=Tuchla (osada), bo zwykle tak robimy w takiej sytuacji...
Czyli duplikatami oznaczamy:
Sam nie wiem... mnie właściwie potrzebna jest tylko informacja (zawarta w fixme=), że w danej gminie są różne miejścowości o takiej samej nazwie. To obudzi moją czujność ;-)
To zgłoszenie to bardziej zasygnalizowanie problemu pod rozważenie niż zgłoszenie błędu. Otóż, ciągnąc adresy z gminy Laszki@EMUiA: ./merger.py --gugik --terc 1804052 trafiłem na adresy z miejscowości Tuchla oznaczone jako fixme=Duplicate[...] Mamy tam klasyczny przypadek, kiedy są dwie miejscowości o tej samej nazwie - jedna z nich to wieś, a drugie to osada. Posiadają one różne kody SIMC. W związku z tym zastanawiam się - może przy wykrywaniu duplikatów brać również pod uwagę zgodność tagu addr:city:simc= w pobranych danych?