Rozróżnianie wielkości liter w numerze (w kontekście duplikatów)

osm-pl / osm-addr-tools

Address conflation tools, expanded version of https://gist.github.com/balrog-kun/4241509 and friends

3 stars 3 forks source link

Rozróżnianie wielkości liter w numerze (w kontekście duplikatów) #28

Open zibik opened 8 years ago

zibik commented 8 years ago

Czasami w danych źródłowych zdarzają się numery, które skrypt oznacza jako zdublowane, np. 5a i 5A. Nie wiem jak w EMUiA, ale w przypadku danych z iMPA oznaczanie takiego przypadku jako fixme jest błędem. Dlatego chciałbym zasugerować, by skrypt nie traktował numerów z małą i wielką literą jako duplikaty.

wiktorn commented 8 years ago

Obecne podejście powoduje to, że numery dostają taką wielkość liter, jaka jest w źródle, bez generowania duplikatów punktów. Takie podejście wydaje mi się, że ma dużo zalet.

Wydaje mi się, że sytuacje, gdy w iMPA są przypadki takich duplikatów, jest na tyle rzadkie, że nie warto tracić powyższej korzyści.

zibik commented 8 years ago

Chyba nie rozumiem... Napisałeś "Obecne podejście powoduje to, że numery dostają taką wielkość liter, jaka jest w źródle, bez generowania duplikatów punktów." Czy aby na pewno? To czemu przykładowy numer 5a i 5A dostają fixme=Duplicate address[...]?

wiktorn commented 8 years ago

Jeżeli w OSM jest adres 5a, a w źrodle adres ma 5A, to skrypt z automatu poprawi na 5A i nie będzie mówił nic o duplikatach.

Jeżeli natomiast masz w źródle zarówno adres 5A jak i 5a, to oba zostaną zaimportowane i oznaczone jako duplikat.

zibik commented 8 years ago

No i właśnie o ten drugi przypadek mi chodzi - zarówno w iMPA jak i w EMUiA zdarzają się adresy różniące się tylko wielkością literki i które IMO niepotrzebnie są oznaczane jako fixme=Duplicate