LODIFMO / semantic_search

0 stars 0 forks source link

Разработка прототипа #1

Open nav-mike opened 7 years ago

nav-mike commented 7 years ago

Разработать прототип поиска публикаций по ключевым словам

Использовать 5 - 10 открытых источников публикаций (linkeduniversities.org и тд)

Разработать интерфейс из двух страниц: страница ввода запроса; страница результата. На странице результата выводить: URI публикации, заголовок, авторы, abstract, источник, год.

Разработать REST интерфейс для поиска. /search?keyword=data%20mining - пример запроса поиска публикаций. В качестве ответа возвращать json с массивом публикаций. Поля такие же как и на странице.

Все запросы логгировать в бд (pg или mongo) + добавить REST доступ на получение этих логов и страницу для их отображения.

Реализовать формирование онтологии на основе запросов: класс Keyword - ключевое слово по которому ведется поиск (rdfs:label - текстовое значение ключевого слова); класс Resource - публикация, найденная по ключевому слову (rdfs:label - заголовок, authors - массив авторов, rdfs:comment - abstract, source - источник в виде строки, year - год публикации, link_to - URI публикации). Онтология должна поддерживать расширение: при повторном запросе по тому же ключевому слову - если новый ответ отличается, нужно добавить новые данные в онтологию - исключить копирование данных в онтологии.

Упаковать проект в docker - контейнер. По возможности, разместить проект на heroku.com или любом другом хостинге.

ogerasin commented 7 years ago

Итак, чего я добился от сайта linkeduniversities:

  1. University of Bristol - битая ссылка
  2. The Open University - отличный сайт с хорошим датасетом и полезной инфой, но к моему огромному сожалению не поддерживает remote вызовы. По-крайней мере, я с помощью QueryExecutionFactory.sparqlService("http://data.open.ac.uk/sparql", getStringForQuery()); не смог ничего добиться:( Выдает следующее: Endpoint returned Content-Type: text/html which is not currently supported for SELECT queries
  3. University of Southampton - хорошая endpoint, доступна для remote, но я на сайте не нашел у них датасета с Публикациями.
  4. Ege University, Turkey - битая ссылка
  5. Aalto University - та же история, что и со вторым.
  6. Italian National Research Council - та же история
  7. University of Münster - та же история
  8. Charles University in Prague, Publications - С этим еще поработаю, и ремотные вызовы поддерживает, и вроде публикации есть, но еще не нашел подходящий запрос.
  9. Aristotle University - битая
  10. Universitat Pompeu Fabra - доступна для remote, не нашёл датасета с публикациями.

Пока что лучше всего получилось с сайтом publications.europa. И удалённые выховы поддерживает, и публикации есть. Вот с ним единственным полноценно работаю. В гитхаб планирую всё выложить в вс вечером, до этого занят буду. REST запрос я реализовал, sparql запрос из java к сайтам тоже, в json результаты перевожу, осталось связать это:)

nav-mike commented 7 years ago
nav-mike commented 7 years ago

@GitGeras какие изменения?

ogerasin commented 7 years ago

@nav-mike Сейчас достаточно много учёбы и работы, пока изменений нет

ogerasin commented 6 years ago

Приложение задеплоено на heroku, также доступно в docker (ovger/semanticsearchtest).

api: Вывод лога по запросу "semantic", Вывод публикаций по запросу "semantic" (может выполняться долго)