Open audetv opened 1 year ago
Самое главное, что после проделанной вами работы осталось, это разобраться со скобками, оформляющими сноски. Сейчас это самый нечитабельный элемент получается. Я так понимаю основной проблемой является то, что сноски изначально являются блоком с параграфами, и таким образом текст сноски, взятый в скобки, отбивается тегом в начале и в конце, то есть после открывающей скобки и перед закрывающей, таким образом скобки отдаляются от текста, который они окружают и по сути не связываются с ним визуально.
Самое главное, что после проделанной вами работы осталось, это разобраться со скобками, оформляющими сноски. Сейчас это самый нечитабельный элемент получается. Я так понимаю основной проблемой является то, что сноски изначально являются блоком с параграфами, и таким образом текст сноски, взятый в скобки, отбивается тегом в начале и в конце, то есть после открывающей скобки и перед закрывающей, таким образом скобки отдаляются от текста, который они окружают и по сути не связываются с ним визуально.
Согласен, визуально плохо, надо исправить. Я это сделаю, просто пока не начинал, думаю справлюсь, просто ранее были другие задачи в парсере, сами сноски собрать в параграфы, смерджить, а скобки ушли на задний план, а сейчас можно переделать сноски, теперь уже понятно по эти скобкам, что мы хотим. В ближайшее время исправлю. Возможно это исправление можно объединить со склейкой коротких параграфов в один. подумаю, но, конечно, быстрее будет, если только сноски сделать. а короткие параграфы отложить
Возможно это исправление можно объединить со склейкой коротких параграфов в один. подумаю, но, конечно, быстрее будет, если только сноски сделать. а короткие параграфы отложить
Однозначно лучше решить только сноски, поскольку они наиболее «острая проблема». Параграфы уже можно будет разобрать по накатанной схеме, даже возможно взяв что-то из полученного кода, если это будет актуальным.
По сноскам вопрос — а чём именно там самая ключевая загвоздка? На каком этапе процесса возникают причины текущего отображения?
По сноскам вопрос — а чём именно там самая ключевая загвоздка? На каком этапе процесса возникают причины текущего отображения?
Я просто пока не начинал ещё ими заниматься. Никаких пока загвоздок нет, но только что надо сесть и сосредоточиться. Сделаю. Хотя есть загвоздка, просто css и шаблоны можно делать, отвлекаясь от рабочих дел, а в парсере не особо так получается. В ближайшие сутки сделаю)
А, нет, это не горит. Я о другом про загвоздку — может быть нам продумать более внятное их оформление, но без необходимости «переделывания всего». Потому и вопрос, где там собака порылась, чтобы понять что имеет смысл предлагать как варианты оформления.
Например.
<p>
но с переносами строк <br>
?По поводу ссылок с номером параграфа. Возможно надо сделать всплывающую подсказку при наведении курсора, что-то вроде «посмотреть в контексте» или «посмотреть в контексте книги», какие-то такие варианты. Сейчас номера с оформлением ссылки работают почти как пасхалка — доступны только сообразительным.
Возможно от номеров вообще избавиться, но мне они почему-то нравятся. К тому же сохраняется функционал ручного копирования и добавления номеров параграфов к интересующей выдаче.
Сейчас номера с оформлением ссылки работают почти как пасхалка — доступны только сообразительным.
Ага, увидел в комментариях вопрос, да надо сделать по другому, согласен. Подумаю, но уже завтра, потестируем варианты. Сегодня хочу отвлечься и почитать, что там в теме, я уже страниц 5 отстаю, столько событий, а я тут сижу примусы починяю)))
Сегодня хочу отвлечься и почитать, что там в теме, я уже страниц 5 отстаю, столько событий, а я тут сижу примусы починяю)))
Да, конечно. Там была необходимость «протирать штаны».
Сделал тестовое обновление https://github.com/terratensor/kob-library-app/pull/34, можно оставить, можно вернуть как было. В режим 3 + 1 + 3.
Для книг ВП СССР можно применить такой режим чтения: Сделал вверху параграфа ссылку с именем «Читать книгу» При нажатии осуществляется переход в книгу к нужному параграфу. Отображаются все параграфы. Книгу можно прочитать всю. Что думаете?
Я думаю зря. Книги распространяются на сайтах КОБ в авторском виде. У нас эти файлы изменены для организации поиска (изменены переносы, убраны сноски, удалены картинки и переходы по содержанию, отсутствует оформление заголовков, глав и разделов), они не предназначались для публикации, только для поиска. Подразумевалось, что найдя нужную информацию пользователь возьмёт оригинальный авторский источник и прочитает. Сейчас получается что мы распространяем редактированные версии книг.
С точки зрения пользовательского опыта — работает круто. Но за распространение книг будет прилёт.
Если публиковать книги, то потребуется их форматирование под веб-типографику, как минимум вернуть заголовки и изображения. Возможно они где-то опубликованы в текстовом виде, типа Wikireading? Я в открытом текстовом виде вообще не встречал, даже голый пдф не попадался. Всё лежит в архивах. Почему? Мне неизвестен ответ.
Наверное да, хорошо. Но это лишь про ВП СССР книги, не про другие библиотеки, с ними понятно, а в толстых книги в начале есть параграф, разрешающий «исходя из свойственного ему понимания общественной пользы копировать и тиражировать, в том числе с коммерческими целями, настоящие материалы в полном объеме или фрагментарно всеми доступными ему средствами», руководствовался этим. Но даже не не в этом суть, я подумал, посмотрел, хорошо, но передумал) Есть в этом уход от направления в сторону, будет получается читалка (со своей спецификой), а нужен поисковый агрегатор)
Но даже не не в этом суть, я подумал, посмотрел, хорошо, но передумал)
Почему? Не в смысле критики. Я чисто по безопасности маякнул — ситуация неизвестна (мне).
Есть в этом уход от направления в сторону, будет получается читалка (со своей спецификой), а нужен поисковый агрегатор)
Это мысль правильная, но не то чтобы причина. Я думаю можно разведать что и как, да опубликовать «интернет-версии» если это будет нужно и правильно. Технически результат очень прилично выглядит.
Т.е. ресурсов (время и сил) не так много, что бы покрыть все направления, нужно держаться главного вектора и не распыляться. Передумал, я так как начал делать, сделал и уже пошло по пфу давить на психику, в другую сторону нужны вебсокеты, сессии и прочее. Пока не хочу) убрал. вернуть это не сложно, посмотрим, работы на полчаса, так как под это было сделано, есть база делай запрос и все)
Что думаете по геоматрице? Нереально?
Ахаха, понял, просто ещё мне хотелось почитать некоторые книги после разного поиска, вот и решил себе облегчить задачу). Ладно, вернул все как было с контекстом. но надо только вместо номеров придумать другую ссылку будет.
Что думаете по геоматрице? Нереально?
Так нет, реально, но что бы это было реальнее, надо к ней переходить, а там как раз направление - цитаты из книг, и с эти все понятно и правильно, надо так и идти в этом векторе по книгам. Считаю, что геоматрица нужнее, ВП СССР книги уже есть в сети., а геоматрицы еще пока нет. так что будем двигаться.
Плюс задачи по геохешу впереди, по ней много чего интересного впереди, технических задач, поиск это лишь часть, геоматрицы. И она стала ближе мне, она уже сломала пару моих калейдоскопов, такое нельзя отпускать ))) Так что реально.
Ахаха, понял, просто ещё мне хотелось почитать некоторые книги после разного поиска, вот и решил себе облегчить задачу).
Расчёт бессознательного понятен ))) Вероятно оно в правильную сторону ведёт, я обычно так предполагаю, типа это интуиция пробилась. Ну и хорошо — метод у вас уже отработан, далее его будет внедрить очень легко на любом подходящем материале. Если что, когда книги редактировал, то по таблице РКН с сайта вики-коб почти все опубликованные книги «зелёные» то есть проверенные, и только две или три «белые» то есть не проверялись (но скорее всего не будут и не содержат, ибо просто редакции других). «Красных» книг нет.
Так нет, реально, но что бы это было реальнее, надо к ней переходить, а там как раз направление - цитаты из книг, и с эти все понятно и правильно, надо так и идти в этом векторе по книгам.
Там по книгам только основная выдача «данных». Но в самой системе есть не отработанные механизмы, которые пока не понятно как будут работать. Основной проблемой выглядит комбинаторика, которая увеличивает сложность системы в n! раз, а это плохой, нет, это наверное самый плохой вариант сложности.
Плюс задачи по геохешу впереди
Со стороны логики программирования это наверняка наиболее близкая вам задача, поскольку это такая, ясная математика с понятными и логичными идеями. Чего не скажешь о координатах на геоиде ))
И она стала ближе мне, она уже сломала пару моих калейдоскопов, такое нельзя отпускать )))
Я когда только начал, мои представления несколько раз перевернулись, поскольку это геометрия «неожиданностей». Я поэтому отдаю себе отчёт почему люди в общем не понимают о чём речь когда я говорю про эту систему. Она противоречит привычным бытовым представлениям не из-за какой-то конспирологии, а чисто геометрически. На геоиде или сфере через одну точку можно провести бесконечное количество «прямых» (того, что мы в «плоской» реальности воспринимаем прямыми), но параллельных прямых вообще не существует. Параллельными линиями являются такие, которые в «плоской» реальности расходящиеся дуги. И тому подобные выкрутасы геометрии, о которых не думаешь. Этих представлений просто не содержится в голове, пока не начнёшь. Возникает ступор непонимания о чём речь.
появилась мысль
По поводу ссылки на номере параграфа, при нажатии на ссылку, пока условно контекст (пока это номер параграфа, но от номеров надо 100% избавляться) осуществлять переход на страницу, сделанную в таком же режиме, как я делал в https://github.com/terratensor/kob-library-app/issues/20#issuecomment-1614984532 На странице будут 7 параграфов, и только в конце будет наименование книги, а не после каждого параграфа, как-бы страница контекста. Но чтобы номеров не было видно в поисковой строке. (возможно поисковая строка будет пустая, а это как бы страница контекста, preview страницы, большая циатата, надо подумать как ее назвать, чтобы было легально и правильно.
И так у нас не будет публичного размещения номеров параграфов и позиций параграфов относительно друг друга.
Надо подумать, но эти страницы можно сделать не доступными для индекса, например они каждый раз будут с новым кодом , и будут «протухать» пропадать/недоступны через какое-то время, чтобы нельзя было давать на эти страницы ссылку. И таким образом мы не распространяем, а лишь ознакамливаем читателя с книгой и направляем на путь)
upd: что-то типа того: lib.svodd.ru/blockquote/ede125dc-19e3-11ee-be56-0242ac120002
По поводу ссылки на номере параграфа, при нажатии на ссылку, пока условно контекст (пока это номер параграфа, но от номеров надо 100% избавляться) осуществлять переход на страницу, сделанную в таком же режиме, как я делал в #20 (comment) На странице будут 7 параграфов, и только в конце будет наименование книги, а не после каждого параграфа, как-бы страница контекста. Но чтобы номеров не было видно в поисковой строке. (возможно поисковая строка будет пустая, а это как бы страница контекста, preview страницы, большая циатата, надо подумать как ее назвать, чтобы было легально и правильно.
Мысль верная.
disallow: /print_page
в роботс.тхтlib.svodd.ru/blockquote/ede125dc-19e3-11ee-be56-0242ac120002
Недоступно.
Мысль верная.
- Если номера не нужны — убиваем номера, пишем «контекст», логика улучшается.
- Правильная страница открывается в новой вкладке, там несколько параграфов подряд, как в книге.
- Внизу подвал с названием книги. Или вверху чердак, без разницы.
- Чтобы не было номеров в строке — строку на странице делаем вообще невидимой, прячем её.
- Сделать раздел «для печати» и в роботс.тхт что-то вроде
disallow: /print_page
Да, как то так. и да поисковую строку можно вообще убрать, в принципе да.
lib.svodd.ru/blockquote/ede125dc-19e3-11ee-be56-0242ac120002
Недоступно.
lib.svodd.ru/blockquote/ede125dc-19e3-11ee-be56-0242ac120002 - да недоступно, это был просто пример (такой страницы нет), как может выглядеть адрес такой страницы, uuid после bloслquote может быть всегда разным, для разных людей, или каждый раз разным при новом нажатии, над этим механизмом надо подумать. пока лишь направление, но как то так делают ссылки для скачивания, доступны некоторое время и потом пропадают.
lib.svodd.ru/blockquote/ede125dc-19e3-11ee-be56-0242ac120002 - да недоступно, это был просто пример
А, подумал ссылка.
uuid после bloслquote может быть всегда разным, для разных людей, или каждый раз разным при новом нажатии, над этим механизмом надо подумать. пока лишь направление, но как то так делают ссылки для скачивания, доступны некоторое время и потом пропадают.
Значит в таком направлении и думаем.
Пока кнопка «контекст» в военно-исторической библиотеке работает не очень хорошо — страница /print_page пытается загрузиться в новом окне, но она очень долго пустая, прогружается около минуты.
В случае, если страница контекста уже открыта, то при нажатии ссылки на контекст другого параграфа, его контекст открывается в той же вкладке что и предыдущий, и на это уходит в два раза меньше времени. Далее другие контексты загружаются в этой же вкладке примерно за полминуты. Если вкладку закрыть и снова нажать кнопку контекста, странице снова потребуется около минуты для загрузки.
Сама страница выглядит адекватно, кажется это то, что доктор прописал.
Да, эта проблема спрозодительностью. Выборка происходит по uuid из 22 мил записей... Пока не очень хорошо. Думаю, что делать. проще всего увеличить мощность сервера, оперативную память.
Можно переписать запросы, можно переделать на выдачу страницы из постгрес бд, но надо понаблюдать, пробовать, в общем работа в переди)
Да, эта проблема спрозодительностью. Выборка происходит по uuid из 22 мил записей...
Что если заранее сформировать таблицу «контекст» для каждой записи?
Думаю, что делать. проще всего увеличить мощность сервера, оперативную память.
Представляется, что такой сценарий в будущем быстро превратится в метод «на каждую проблему выделять ресурсы сервера», кажется нужно исходить из оптимизации эффективности сценариев и наоборот понижать трату ресурсов.
Меньше чем сейчас, 2 гб памяти на все сервисы, врятли будет найден приемлемый сценарий. С большими данными. В самом начале комментарии работали на 512 мб, но падали если делать несколько запросов одновременно. 2 гб до этого было достаточно, а для таких больших данных уже нет но там помимо памяти ещё нужны диски) если не в памяти то на свопе. В общем так.
Меньше чем сейчас, 2 гб памяти на все сервисы, врятли будет найден приемлемый сценарий. С большими данными. В самом начале комментарии работали на 512 мб, но падали если делать несколько запросов одновременно. 2 гб до этого было достаточно, а для таких больших данных уже нет но там помимо памяти ещё нужны диски)
Понял. Логично. Потому и был вопрос про ресурсы ещё до запуска. Но теперь знаем на практике, что для такого объёма данных текущих ресурсов мало, значит уже потребуется оценивать актуальность такого онлайн сервиса. Если, скажем, пользователей всего 5 (условно), то проще им раздать «локальное приложение» и сказать где база лежит ))
Есть много мыслей, что можно улучшить в оформлении. В целом на правильном пути. Есть подозрение. что для демонстрации книг нам просто нужно подобрать другой шаблон, не такой как у комментариев. Сейчас быстро пробежался по шаблонам бутстрапа, что-то ничего не попалось для лонг рида. В принципе не проблема прокачать и текущий шаблон, сделать его более книго-читаемым.
Потестировал ещё результаты. Можно сделать одну единственную кнопку «контекст», которая будет вмещать установленное число параграфов в обе стороны, на первый взгляд достаточно по три штуки вперёд и назад. Этой кнопкой может быть прямо номер комментария. В странице выдачи контекста можно убрать заголовки, нумерацию и вообще всё остальное оформление блоков, текст разделять лишь пустой строкой, как в книге. Восприниматься будет чище и легче.
Понятно, что сейчас страница с контекстом это просто поисковая выдача по списку номеров параграфов, но мы можем сделать для показа контекста отдельный шаблон, без разделения текста на блоки?
Что в принципе более эффективно (или вообще возможно) — найти и установить другой шаблон для общей книжной выдачи, или доработать текущий?
Originally posted by @iprst in https://github.com/terratensor/book-parser/issues/2#issuecomment-1612144313