deevroman / better-osm-org

A userscript that adds several useful features to osm.org β
46 stars 1 forks source link

Bypass OSMF Redactions #54

Open deevroman opened 1 month ago

deevroman commented 1 month ago

There are CC-BY-SA-2.0 dumps-planets that weigh only 22 gigabytes. https://planet.openstreetmap.org/cc-by-sa/

Was a lot of data lost after the license change? I think there are not many, and they can be hosted, for example, directly on GitHub, in order to have a fallback when the extension cannot load old data

deevroman commented 1 month ago

Что ж...

  1. Не все версии объектов отображаются как redacted. Часть из них отображается как удалённые (и это даже для первой версии!)
  2. Т.е. чтобы понять, что линия повреждена исправлениями, нужно обязательно запрашивать информацию обо всех удалённых версиях. Как? либо проверяйте список пользователей не согласившихся с переходом на ODbl (файл с айдишниками весит 4 мегабайта, неприкольно upd: вру, всего 4килобайта) Либо обращайтесь в репозиторий за удалёнными версиями
  3. Удалённые данные за 2005-2007 года весят 170 мб если хранить каждую удалённую версию отдельным xml файлом. И проблема больше не суммарном размере, а в количестве файлов которых уже 600к => нужно группировать в файлы
  4. Как выфильтровывать затёртые данные отдельный прикол, потому что в старых диффах иногда нет автора правки. Однако он есть в дампе всех пакетов правок. Т.е. нужно сначала отфильтровать правки несогласившихся, а потом потом по них находить нужные объекты
  5. Выфильтровать xmlины диффов на питоне боль
deevroman commented 4 weeks ago

Окей, данные выгружены https://github.com/osm-cc-by-sa/data

upd: ан, нет. Не всё выгружено. Например https://github.com/osm-cc-by-sa/data/blob/main/versions_affected_by_disagreed_users/node/0.osm должно содержать больше данных https://www.openstreetmap.org/node/2

deevroman commented 1 week ago

Данные до 2012 + redaction period выгружены. Остаётся допилить в расширении подгрузку геометрии