Разработка прототипа

nav-mike commented 7 years ago

Разработать прототип поиска публикаций по ключевым словам

Использовать 5 - 10 открытых источников публикаций (linkeduniversities.org и тд)

Разработать интерфейс из двух страниц: страница ввода запроса; страница результата. На странице результата выводить: URI публикации, заголовок, авторы, abstract, источник, год.

Разработать REST интерфейс для поиска. /search?keyword=data%20mining - пример запроса поиска публикаций. В качестве ответа возвращать json с массивом публикаций. Поля такие же как и на странице.

Все запросы логгировать в бд (pg или mongo) + добавить REST доступ на получение этих логов и страницу для их отображения.

Реализовать формирование онтологии на основе запросов: класс Keyword - ключевое слово по которому ведется поиск (rdfs:label - текстовое значение ключевого слова); класс Resource - публикация, найденная по ключевому слову (rdfs:label - заголовок, authors - массив авторов, rdfs:comment - abstract, source - источник в виде строки, year - год публикации, link_to - URI публикации). Онтология должна поддерживать расширение: при повторном запросе по тому же ключевому слову - если новый ответ отличается, нужно добавить новые данные в онтологию - исключить копирование данных в онтологии.

Упаковать проект в docker - контейнер. По возможности, разместить проект на heroku.com или любом другом хостинге.

ogerasin commented 7 years ago

Итак, чего я добился от сайта linkeduniversities:

University of Bristol - битая ссылка
The Open University - отличный сайт с хорошим датасетом и полезной инфой, но к моему огромному сожалению не поддерживает remote вызовы. По-крайней мере, я с помощью QueryExecutionFactory.sparqlService("http://data.open.ac.uk/sparql", getStringForQuery()); не смог ничего добиться:( Выдает следующее: Endpoint returned Content-Type: text/html which is not currently supported for SELECT queries
University of Southampton - хорошая endpoint, доступна для remote, но я на сайте не нашел у них датасета с Публикациями.
Ege University, Turkey - битая ссылка
Aalto University - та же история, что и со вторым.
Italian National Research Council - та же история
University of Münster - та же история
Charles University in Prague, Publications - С этим еще поработаю, и ремотные вызовы поддерживает, и вроде публикации есть, но еще не нашел подходящий запрос.
Aristotle University - битая
Universitat Pompeu Fabra - доступна для remote, не нашёл датасета с публикациями.

Пока что лучше всего получилось с сайтом publications.europa. И удалённые выховы поддерживает, и публикации есть. Вот с ним единственным полноценно работаю. В гитхаб планирую всё выложить в вс вечером, до этого занят буду. REST запрос я реализовал, sparql запрос из java к сайтам тоже, в json результаты перевожу, осталось связать это:)

nav-mike commented 7 years ago

[ ] Добавить источники до 5 (https://dev.springer.com)
[ ] Добавить фильтры
[ ] Логгировать запросы
[ ] Сохранять результат в локальную онтологию/база данных

nav-mike commented 7 years ago

@GitGeras какие изменения?

ogerasin commented 7 years ago

@nav-mike Сейчас достаточно много учёбы и работы, пока изменений нет

ogerasin commented 6 years ago

Сейчас используется 4 источника (Open university, europe publications, aalto uni, springer)
Запросы логгируются, при поиске можно задать - вывести кешированный результат (это будет быстрее) или сделать новый запрос
Реализован API для получения логов и публикация по запросу.

Приложение задеплоено на heroku, также доступно в docker (ovger/semanticsearchtest).

api: Вывод лога по запросу "semantic", Вывод публикаций по запросу "semantic" (может выполняться долго)

LODIFMO / semantic_search

Разработка прототипа #1