Kristinita / SashaMiscellaneous

Create repository for tests and demonstrations
https://Kristinita.netlify.app
0 stars 0 forks source link

feature_request(fbsearch): исключение художественной литературы из результатов #17

Open Kristinita opened 6 years ago

Kristinita commented 6 years ago

1. Запрос

Неплохо было бы иметь опцию исключения художественной литературы из результатов поиска.

2. Аргументация

я пользуюсь FBSearch для поиска non-fiction литературы и считаю, что эффективно использовать его можно только для этого. Однако при поиске non-fiction в поисковой выдаче FBSearch появляется и художественная литература, в данном случае являющаяся информационным шумом. И порой довольно много. Неплохо бы, чтобы пользователи могли быстрее искать нужную им нехудожественную литературу, не тратя своё время на информационный шум.

3. Пример реализации

3.1. Жанры

На сайте FBSearch для каждого результата SERP проставлены жанры. Так, в примере ниже жанры — проза, классическая проза XIX века, foreign_detective и зарубежная классическая проза:

Genres

Неплохо было бы сделать опцию исключения результатов, которые имеют хотя бы один жанр, относящийся к художественной литературе (например, любой из жанров в примере выше). Для этого, правда, нужно составить как можно более полный список жанров.

3.2. Изменения

Пользователь заходит на fbsearch.ru → нажимает Расширенный → ставит галочку на Искать только нехудожественную литературу → вводит поисковый запрос → Искать → в поисковой выдаче отсутствуют результаты с литературными жанрами. Если галочка с Искать только нехудожественную литературу снята, соответственно, показываются все результаты, включая жанры художественной литературы.

Когда галочка поставлена, желательно, чтобы в URL поискового запроса это было бы как-то отражено. К примеру, в URL добавится only_nonfiction=true.

4. Ответ на возможное замечание

Да, имеется проблема, что к нехудожественной литературе могут проставляться жанры, характерные для художественной. Однако полагаю, что она далеко не критическая и стоит не так остро, как в моём поисковике.

  1. Лично для моих поисковых запросов жанры художественной литературы всё же не проставляются к нехудожественной (пример запроса). Как для остальных пользователей — не могу сказать, не имея статистики по ним.
  2. Поиск, включающий жанры художественной литературы, никто отнимать не будет.

Спасибо.

Kristinita commented 6 years ago

1. Файлы

Списки тегов и жанров:

Синонимы и отступы сохранены, trailing spaces удалены.

1.1. Примечание

В список нехудожественной я добавил следующие жанры:

астрология и хиромантия             astrology       astrology
хиромантия                      palmistry
эзотерика, эзотерическая литература Оккультизм
эзотерика, эзотерическая литература Эзотерика
эзотерика, эзотерическая литература             religion_esoterics      religion_esoterics

Как сциентист, полагаю, что пара- и псевдонаучная литература, а также неакадемические направления исследований, рассмотренные не с позиций официальной науки, будут только засорять поисковую выдачу.

Но если считаете, что данные жанры лучше включить в список нехудожественной литературы, ОК.

2. Способы реализации исключения художественной литературы

2.1. Общее описание

Вижу их 2:

  1. Если у файла имеется хотя бы один жанр/тег из списка нехудожественной литературы (далее по тексту нл), то этот файл будет показываться в поисковой выдаче по нл. Когда же у файла нет ни одного жанра/тега из списка нл, он не будет показываться в поисковой выдаче по нл.
  2. Если к файлу проставлен хотя бы один жанр/тег из списка художественной литературы (далее по тексту хл), то он не будет показываться в поисковой выдаче по нл вне зависимости от того, проставлены ли к нему нл-жанры/теги.

По моему мнению, основанному на небольшой выборке, предпочтительнее первый способ, почему и перенёс все жанры, характерные для хл, в хл-список, даже если эти жанры в редких (но только редких) случаях проставлены к нл-файлам. Ниже объяснение. Если по каким-то причинам неохота читать, можно переходить к разделу 4 — «Выводы».

2.2. Первый способ

Недостаток: к хл проставляют теги, характерные для нл.

Степень погрешности:

Рассмотрим, сколько де-факто хл-файлов из первых 30 результатов в поисках по следующим жанрам:

В данных случаях жанры, подходящие к нл, проставляют к хл достаточно редко. Возможно, данный вывод уместно распространить на большую выборку жанров нл.

2.3. Второй способ

Недостаток: хл-результаты в поисковой выдаче по нл.

Пример:

Однако у этого результата имеются и теги из списка нлсправочная литература и руководства:

Грег Дин, комедия

То есть, если выбрать первый способ, данный файл будет в поисковой выдаче по нл.

Другие примеры по жанрам:

Тем не менее выборка показывает, что это меньшее из зол.

3. Выводы

  1. При первом способе в поисковой выдаче поиска по нл-жанрам будет содержаться меньше информационного шума, чем если включать в нл-список хл-жанры, проставленные к небольшому числу де-факто нл-книг.
  2. При первом способе в поисковой выдаче по нл-жанрам будет меньше потерь, нежели если убирать из нл-SERP результаты, содержащие хоть один хл-тег.

Спасибо.