Closed Kkhludneva closed 5 months ago
Продвинутая поддержка геоданных:
Широкая экоcистема и инструменты:
Горизонтальная масштабируемость:
Сложность управления:
Горизонтальное масштабирование:
Гибкость схемы данных:
Согласованность данных:
Ограниченная поддержка сложных запросов:
NoSQL БД хорошо подходят для работы с большим количеством данных, но не так хорошо приспособлены для специфической работы с геоданными, с которыми очень хорошо умеет работать PostgreSQL. Оба варианта имеют права на существование, для реляционных БД это - PostrgreSQL, для нереляционных - MongoDB либо Cassandra, которая умеет обрабатывать большое количество запросов за короткое время.
Для нашей задачи выбрали PostgreSQL с PostGIS. В виду удобства, скорости и стабильности, а также обильного наличия инструментов для работы.
@potomushozhenya @Kkhludneva @Guywash-Ka коллеги, я бы не считал эту задачу выполненной. Проблема не в решении, а в постановке. В постановке не уточняется, о каких данных идёт речь, что вкладывается в понятие "большие", и какие критерии оптимальности используются для отбора.
На встрече я отмечал, что pipline обработки данных может использовать разные хранилища для разных локальных целей каждого из этапов. Например, если речь идёт о сборе и хранении (до последующей обработки) сырых данных, то это могут быть одни решения, а если речь идёт о хранении данных для аналитики, то это скорее всего будут другие решения.
Если мы говорим о том, что нам необходимо решать задачи анализа именно пространственных данных, то да, важным критерием может стать поддержка пространственных типов. Однако приведённое сравнение конкретной СУБД (PostGIS) с широким классом СУБД (NoSQL) не даёт возможности сделать объективный выбор.
В своём сравнении авторы не делают ссылки на источники, что может говорить о самостоятельности этого сравнения. Если именно так всё и обстоит, то востребована методика сравнения.
Предлагаю ознакомиться со статьёй, которая может позволить несколько иначе рассмотреть возможности NoSQL СУБД в задачах хранения и обработки пространственных данных: Guo, D.; Onstein, E. State-of-the-Art Geospatial Information Processing in NoSQL Databases. ISPRS Int. J. Geo-Inf. 2020, 9, 331. https://doi.org/10.3390/ijgi9050331
Своим комментарием я не хотел авторов и команду отвлечь от мысли в последующем использовать PostGIS. Скорее хотел указать на некоторую недоработку в постановке задачи.
@nikita03565
Не отменяя критического комментария Сергея Юрьевича, хочу похвалить ребят @Guywash-Ka и @potomushozhenya за приведенное сравнение подходов к хранению данных и аргументацию итогового выбора
Познакомиться с современными практиками хранения больших данных. Рассмотреть нереляционные хранилища. Оценить, какой способ хранения оптимален для нашей задачи.
Отразить все рассуждения в комментариях под issue.