terratensor / LLM-KOB-DOTU

Добавление LLM с книгами на svodd.ru
0 stars 0 forks source link

Вопрос #1

Open terekon1 opened 5 months ago

terekon1 commented 5 months ago

Если возник вопрос, задавайте в этой ветке

iprst commented 5 months ago

возможность сохранять Итог для ИИ( Она создает итог согласно тому что происходило в чате и какую роль она получила) возможность загружать Итог для ИИ( Что бы модель могла быстро вспомнить о чем шла речь)

Как выглядит сохранённый «итог» и можно ли его подделать для взлома «памяти» модели о предыдуших разговорах?

terekon1 commented 5 months ago

возможность сохранять Итог для ИИ( Она создает итог согласно тому что происходило в чате и какую роль она получила) возможность загружать Итог для ИИ( Что бы модель могла быстро вспомнить о чем шла речь)

Как выглядит сохранённый «итог» и можно ли его подделать для взлома «памяти» модели о предыдуших разговорах?

Пример итога находится в файле доту.txt, там очень короткое обучение, результат находится в файле 18стр.На данный момент да, посторонний человек в теории может заменить файл. Я пока думаю как можно обезопасить себя от этого, есть несколько идей:

  1. прописать определенную роль которая сможет создавать этот итог
  2. Убрать возможность суммеризации у финальной версии(пользователь не сможет влиять на файл из которого LLM будет брать данные)
  3. Возможно сделать на другой модели, но я бы хотел что бы каждый пользователь мог добавлять свои данные и модель индивидуально у дополняла себя, не затрагивая материнские файлы, это в принципе возможно, но нужна будет скорее всего другая модель, либо выход следующей версии в АПИ. Там это можно делать.
iprst commented 5 months ago

Я не совсем в целях безопасности.

В общем, вопрос про обход определённых ограничений.

Пока не понял, что это за штука «память». Что если «я» наговорил с моделью двадцать триллионов часов? Где это хранится в представлениях гугла? Что это за штука такая, вот модель «обучена» и «освоила ДОТУ». Вот некто сел с ней беседовать и пробеседовал четыре времени существования вселенной. Достаточно легко вычисляется существующий сценарий — сама модель об этой беседе не помнит, но вот есть файл… На что тогда этот файл влияет, ведь внутри «обученной модели» этих данных нет, раз требуется файл «памяти». Что-то тут не так и мы это используем на пользу дела в наших целях.

Имеется ли ограничение на память модели? Можно ли подменить обучение файлом памяти, размером в десять миллионов токенов? Можно ли подать модели «память» размером 200 Гб? У нас есть готовый токенизированный мантикорой файл на 200 Гб.

Тем же образом можно скормить модели все комментарии. Это другой файл, значительно поменьше.

terekon1 commented 5 months ago

Я не совсем в целях безопасности.

Имеется ли ограничение на память модели? Можно ли подменить обучение файлом памяти, размером в десять миллионов токенов? Можно ли подать модели «память» размером 200 Гб? У нас есть готовый токенизированный маниткорой файл на 200 Гб.

У любой модели есть ограничение на память. Технически это возможно, но 10 млн это маловато будет. Подача модели памяти размером 200 ГБ займет очень много времени, либо выдаст ошибку, не знаю какой сервер нужен что бы скормить такую "память" . Частями наверное можно подавать, нужно будет посмотреть Токены используются для преобразования текста в числовую форму, которую модель может понять. Каждому токену в словаре модели присваивается уникальный идентификатор. Языковые модели имеют ограничение на количество токенов, которые они могут обработать за один раз. Это ограничение связано с вычислительными ресурсами и архитектурой модели. Если превысить лимит токенов, модель не сможет обработать весь текст. В зависимости от реализации модели, может быть несколько исходов:

  1. Модель будет обрабатывать только первые N токенов, где N - это лимит токенов.
  2. Будет выдано сообщение об ошибке, указывающее на превышение лимита токенов.
  3. В некоторых случаях модель может попытаться обработать текст, но результат будет бессмысленным или неверным Тем же образом можно скормить модели все комментарии. Это другой файл, значительно поменьше.

Можно, если он не будет превышать определенных значений по весу файла и количествам токенов, его можно скормить. Подменить обучение нельзя без файла памяти

В общем, вопрос про обход определённых ограничений. Пока не понял, что это за штука «память». Что если «я» наговорил с моделью двадцать триллионов часов? Где это хранится в представлениях гугла? Что это за штука такая, вот модель «обучена» и «освоила ДОТУ». Вот некто сел с ней беседовать и пробеседовал четыре времени существования вселенной. Далее, вычисляется существующий сценарий — сама модель об этом не помнит, но вот есть файл… На что тогда этот файл влияет, ведь внутри «обученной модели» этих данных нет, раз требуется файл «памяти». Что-то тут не так и мы это используем.

Вот вы наговорили двадцать триллионов часов, но если это не обучение, информация будет представлена как входные данные для модели, но не обучающие(хотя возможно и обучающие, не знаю как алгоритмы google работают в этом плане, это закрытая информация, но сами они пишут, что это входные данные)

Файлы "памяти" могут использоваться для хранения информации о текущем разговоре, но они не являются частью самой модели. Файлы "памяти" влияют на ответы LLM, предоставляя дополнительный контекст и более согласованные ответы

Вообще у этой модели есть ограничение в 32к токенов, это общее количество (я вот раздумываю над моделью в 128к и она чуть умнее, может перенесу на следующих выходных, минус ее будет в том, что там есть лимит на одновременное количество отправленных сообщений вроде 20 в минуту, у этой модели лимит намного мягче). Суммеризация это своего рода гибкие костыли, так же предусмотрена загрузка книг, как выйдет версия на миллион токенов это будет намного проще, сейчас пока модель 1.5 -pro увы нельзя прикрепить к этому проекту

Пока ИИ еще очень сильно допускает ошибки, можно будет прикрепить плашку что бы люди проверяли информацию.

iprst commented 5 months ago

Вот вы наговорили двадцать триллионов часов, но если это не обучение, информация будет представлена как входные данные для модели, но не обучающие(хотя возможно и обучающие, не знаю как алгоритмы google работают в этом плане, это закрытая информация, но сами они пишут, что это входные данные). Файлы "памяти" могут использоваться для хранения информации о текущем разговоре, но они не являются частью самой модели. Файлы "памяти" влияют на ответы LLM, предоставляя дополнительный контекст и более согласованные ответы

Вижу тут слабое место у них и подозреваю, что влияние этих входных данных может быть выше, чем обучение, либо влияния нет совсем (почти). Если влияние есть, то оно значительное при соблюдении определённых условий в дискуссии, иначе сохранять и подгружать эти файлы не имело бы смысла. Если влияние незначистельное, то этот метод используется для маскировки, дезинформации об управлении системой.

iprst commented 5 months ago

Вообще у этой модели есть ограничение в 32к токенов, это общее количество (я вот раздумываю над моделью в 128к и она чуть умнее, может перенесу на следующих выходных, минус ее будет в том, что там есть лимит на одновременное количество отправленных сообщений вроде 20 в минуту

Нужно обучить несколько моделей на слегка отличающихся наборах, условно — пусть на каждую толстую книгу будет отдельная модель. Многопользовательский чат, 50 моделей это 50 «пользователей». Постановка вопроса реализует 50 разных в той или иной степени ответов. До соборного интеллекта остаётся шаг, нужно научить модели задавать вопросы друг другу после первичной инициации оператором.

iprst commented 5 months ago

Суммеризация это своего рода гибкие костыли, так же предусмотрена загрузка книг, как выйдет версия на миллион токенов это будет намного проще, сейчас пока модель 1.5 -pro увы нельзя прикрепить к этому проекту Пока ИИ еще очень сильно допускает ошибки, можно будет прикрепить плашку что бы люди проверяли информацию.

К проекту нужно подойти с ПФУ. Сформулировать фактор среды, требущий непосредственного управления.

terekon1 commented 5 months ago

Вот вы наговорили двадцать триллионов часов, но если это не обучение, информация будет представлена как входные данные для модели, но не обучающие(хотя возможно и обучающие, не знаю как алгоритмы google работают в этом плане, это закрытая информация, но сами они пишут, что это входные данные). Файлы "памяти" могут использоваться для хранения информации о текущем разговоре, но они не являются частью самой модели. Файлы "памяти" влияют на ответы LLM, предоставляя дополнительный контекст и более согласованные ответы

Вижу тут слабое место у них и подозреваю, что влияние этих входных данных может быть выше, чем обучение, либо влияния нет совсем (почти). Если влияние есть, то оно значительное при соблюдении определённых условий в дискуссии, иначе сохранять и подгружать эти файлы не имело бы смысла. Если влияние незначистельное, то этот метод используется для маскировки, дезинформации об управлении системой.

Влияние входных данных будет выше, чем влияние обучения, но для этого надо задать определенные инструкции, теми же входными данными. Память файлы можно назвать слоями, которые накладываются на машину и она работает согласно этим слоям (где позволяет цензура)

terekon1 commented 5 months ago

Вообще у этой модели есть ограничение в 32к токенов, это общее количество (я вот раздумываю над моделью в 128к и она чуть умнее, может перенесу на следующих выходных, минус ее будет в том, что там есть лимит на одновременное количество отправленных сообщений вроде 20 в минуту

Нужно обучить несколько моделей на слегка отличающихся наборах, условно — пусть на каждую толстую книгу будет отдельная модель. Многопользовательский чат, 50 моделей это 50 «пользователей». Постановка вопроса реализует 50 разных в той или иной степени ответов. До соборного интеллекта остаётся шаг, нужно научить модели задавать вопросы друг другу после первичной инициации оператором.

Хорошая идея, нужно будет сделать список обязательной литературы для моделей. Так как должен быть фундамент в виде какой либо книги ( ДОТУ в нашем случае) и туда что-то еще прикрепить, любую книгу, следующей машине дать ДОТУ и еще какую-то другую книгу и дать возможность задавать вопросы от машины пользователю, что бы она лучше распознавала информацию и логически более корректно давала ответы, потом суммеризировать полученную информацию и ввести в диалог не пользователя, а другую так же обученную машину, оставив все те же инструкции, после диалога двух машин, суммеризировать их информацию и можно будет объединить по необходимости и тд, Это будет довольно интересно

terekon1 commented 5 months ago

У нас есть готовый токенизированный мантикорой файл на 200 Гб.

Мне бы библиотеку книг почищенную, в формате .doc .docx, можно pdf без картинок, чисто текст, можно даже .txt

audetv commented 5 months ago

У нас есть готовый токенизированный мантикорой файл на 200 Гб.

Мне бы библиотеку книг почищенную, в формате .doc .docx, можно pdf без картинок, чисто текст, можно даже .txt

Мне пока не удалось посмотреть кабинет в гугле, застрял с получением токена, поэтому погадаю.

Токенезированный мантикорой файл, индекс мантикоры, гуглу вообще не нужен, он его не сможет прочитать. Гуглу для обучения нужны исходные файлы, и он их сам будет обрабатывать, согласно своей внутренней логики. И возможно, существует ограничение на кол-во файлов, которые он может принять, безвозмездно).

И если гуглу надо отдавать файлы doс, то надо немного подумать над списком книг в doc файлах.

terekon1 commented 5 months ago

У нас есть готовый токенизированный мантикорой файл на 200 Гб.

Мне бы библиотеку книг почищенную, в формате .doc .docx, можно pdf без картинок, чисто текст, можно даже .txt

Мне пока не удалось посмотреть кабинет в гугле, застрял с получением токена, поэтому погадаю.

Токенезированный мантикорой файл, индекс мантикоры, гуглу вообще не нужен, он его не сможет прочитать. Гуглу для обучения нужны исходные файлы, и он их сам будет обрабатывать, согласно своей внутренней логики. И возможно, существует ограничение на кол-во файлов, которые он может принять, безвозмездно).

И если гуглу надо отдавать файлы doс, то надо немного подумать над списком книг в doc файлах.

Ну в любом случае надо будет обучить на всех книгах которые есть, просто должен быть какой-то фундамент, с чего модели будут обучаться

В README описал, чуть позже опишу подробнее шаг за шагом

Так же требуется впн с локацией в сша. Я использую PaladinVPN на виртуалке, можете на основной машине, это нужно что бы запустить код на локальной машине иначе будет выдавать ошибку и модель вам отвечать не будет

Для получения API ключа надо перейти по ссылке

https://aistudio.google.com/ включив предварительно впн(можно в браузере использовать VeePN или любой другой который поддерживает локацию сшп).

iprst commented 5 months ago

Мне бы библиотеку книг почищенную, в формате .doc .docx, можно pdf без картинок, чисто текст, можно даже .txt

60 Гб, docx, раздавал торрентом. Можно организовать торрент, но не сегодня, архивы не под рукой. Книги не чищеные, где-то половина книг точно содержит мусор (распознанные сканы), и остальная половина иногда содержит мусор (ошибки трансляции fb2 в docx, криво свёрстанные файлы и тому подобное).

iprst commented 5 months ago

Токенезированный мантикорой файл, индекс мантикоры, гуглу вообще не нужен, он его не сможет прочитать.

Да. С моей стороны это был абстрактный вопрос о допусках, с какого порядка размеров данными в качестве «памяти» может работать модель.

iprst commented 5 months ago

Влияние входных данных будет выше, чем влияние обучения, но для этого надо задать определенные инструкции, теми же входными данными. Память файлы можно назвать слоями, которые накладываются на машину и она работает согласно этим слоям (где позволяет цензура)

Как «память» и «слои» называются в оригинале чтобы почитать документацию? Или можно ссылку на раздел в документации https://ai.google.dev/docs/model_tuning_guidance

terekon1 commented 5 months ago

Влияние входных данных будет выше, чем влияние обучения, но для этого надо задать определенные инструкции, теми же входными данными. Память файлы можно назвать слоями, которые накладываются на машину и она работает согласно этим слоям (где позволяет цензура)

Как «память» и «слои» называются в оригинале чтобы почитать документацию? Или можно ссылку на раздел в документации https://ai.google.dev/docs/model_tuning_guidance

https://fineproxy.org/ru/wiki/context-vectors/

Можно еще тут посмотреть https://arxiv.org/pdf/2201.08239.pdf

Память и слои это промпты https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D1%85%D0%BD%D0%B8%D0%BA%D0%B0_%D0%BF%D0%BE%D0%B4%D1%81%D0%BA%D0%B0%D0%B7%D0%BE%D0%BA ,

в документации этого я не нашел.

iprst commented 5 months ago

в документации этого я не нашел

Так откуда же взялось понимание о внешних файлах контекста-памяти? Я думал это в документации опция. Там есть упоминания суммаризации в разделе тренинга например.

По ссылкам информация понятна. А вот ПДФ размером с книгу.

terekon1 commented 5 months ago

в документации этого я не нашел

Так откуда же взялось понимание о внешних файлах контекста-памяти? Я думал это в документации опция. Там есть упоминания суммаризации в разделе тренинга например.

По ссылкам информация понятна. А вот ПДФ размером с книгу.

Ага, но тут возможности загружать информацию непосредственно из книг нету, только в виде небольших обучающих элементов в 100 -500 примеров(можно больше, хотя не рекомендовано), вообще можно попробовать но придется создавать велосипед, хотя наверное нынешний метод от создания велосипеда тоже не далеко уехал. Можно будет генерировать ответы от версии 1.5 которая будет уже со знанием из книг и вставлять их как тестовые образцы для обучения в версию 1.0

iprst commented 5 months ago

Ага, но тут возможности загружать информацию непосредственно из книг нету, только в виде небольших обучающих элементов в 100 -500 примеров(можно больше, хотя не рекомендовано), вообще можно попробовать но придется создавать велосипед

Ещё в промте можно проводить текст книг. Для роста точности можно в поисковике искать ответ модели и брать подходящий текст из книги в качестве следующего шага.

iprst commented 5 months ago

Вопрос как продолжение из #3 «предложений».

Как можно поставить модели (этой или другой) задачу по различению полезного сигнала и шума в источниках? Откуда подойти? Можно ли использовать LLM, нужно ли использовать её для такой задачи, и откуда начать постановку проблемы?

ПФУ-1, фактор среды: огромное количество неразмеченных сигналов, включая канонические маркеры 11 / 22. ПФУ-2, создание стереотипа распознавания: в процессе формулирования.

terekon1 commented 5 months ago

Вопрос как продолжение из #3 «предложений».

Как можно поставить модели (этой или другой) задачу по различению полезного сигнала и шума в источниках? Откуда подойти? Можно ли использовать LLM, нужно ли использовать её для такой задачи, и откуда начать постановку проблемы?

ПФУ-1, фактор среды: огромное количество неразмеченных сигналов, включая канонические маркеры 11 / 22. ПФУ-2, создание стереотипа распознавания: в процессе формулирования.

Для начала можно поделить шум на категории. Маркеры 11 и 22 будут забиты шумом в эти дни месяца соответсвенно, можно использовать эту LLM для сортировки и нахождения закономерностей. Откуда выгрузку информации брать что бы она охватывала ВСЕ новости 11/22 ?

iprst commented 5 months ago

Для начала можно поделить шум на категории.

Не очень понятно какую цель здесь преследовать?

можно использовать эту LLM для сортировки и нахождения закономерностей.

Это интересно.

Откуда выгрузку информации брать что бы она охватывала ВСЕ новости 11/22 ?

Сложный вопрос. Самую мощную выгрузку я получал так — у гугла есть инструмент google alerts, в нём можно настроить сброс новостей в почту или в RSS по нужному текстовому маркеру, которым может служить что угодно, в том числе 11 или 22. У меня настроены RSS на все доступные языки мира, но это утомительно, там порядка полумиллиона новостей в неделю прилетает, я скопил несколько миллионов для теста, и больше не трогал. Но в целом это работало отлично, была лишь проблема с программами чтения, всё это бэкапить приходилось достаточно жёстко, поскольку программы древние и постоянно падали. Есть архив RSS за какие-то месяцы 2020 года, кажется до сих пор работают все RSS каналы, если надо вытащу их, могу найти архив, или можно самостоятельно сделать свои алерты, это всё в пару кликов. Не буду утверждать, что это все новости, но поток явно обильный.

iprst commented 5 months ago

Встречно — возможно имеет смысл подумать над ПФУ-2 и другими этапами, например посмотреть, куда можно засунуть вопрос об источниках. Можно рассмотреть телеги, например. Можно подумать, бывает ли «правильный» источник.

terekon1 commented 5 months ago

Для начала можно поделить шум на категории.

Не очень понятно какую цель здесь преследовать?

Маркеры 11/22 есть в телегах, вк и других платформах(возможно не все новости из этих платформ попадают в общую канву) Потом производить перед анализом сравнение на чистку маркеров которые повторяются в нескольких платформах

можно использовать эту LLM для сортировки и нахождения закономерностей.

Это интересно.

Ну здесь все таки есть нюанс, так как обьем информации просто колоссальный, потребуется огромное количество ресурса( бесплатно в день можно будет на 1 аккаунт обработать примерно 40 млн токенов) И это не одномоментно так как ограничение стоит в 1 миллион токенов

Откуда выгрузку информации брать что бы она охватывала ВСЕ новости 11/22 ?

Сложный вопрос. Самую мощную выгрузку я получал так — у гугла есть инструмент google alerts, в нём можно настроить сброс новостей в почту или в RSS по нужному текстовому маркеру, которым может служить что угодно, в том числе 11 или 22. У меня настроены RSS на все доступные языки мира, но это утомительно, там порядка полумиллиона новостей в неделю прилетает, я скопил несколько миллионов для теста, и больше не трогал. Но в целом это работало отлично, была лишь проблема с программами чтения, всё это бэкапить приходилось достаточно жёстко, поскольку программы древние и постоянно падали. Есть архив RSS за какие-то месяцы 2020 года, кажется до сих пор работают все RSS каналы, если надо вытащу их, могу найти архив, или можно самостоятельно сделать свои алерты, это всё в пару кликов. Не буду утверждать, что это все новости, но поток явно обильный.

И тут вопрос еще вот какой, как объяснить ИИ что такое закономерность в новостях? Ей нужно показать примеры и дать небольшие тесты на прогон.

terekon1 commented 5 months ago

Встречно — возможно имеет смысл подумать над ПФУ-2 и другими этапами, например посмотреть, куда можно засунуть вопрос об источниках. Можно рассмотреть телеги, например. Можно подумать, бывает ли «правильный» источник.

Бывает, «правильный» источник может быть любым источником который передает новость содержащую в себе шифровку. Вообще на мой взгляд сначала стоит поработать с новостями для отбора, потом их чистить( например повторяющиеся, или на разных языках одна и та же новость, хотя в каком то языке она может быть условно с ключом) и потом уже скармливать БЯМ(Большой языковой модели) вычищенный контекст для определения на условную «пустышку» , «маркерную», «возможно маркерную, так как событие не произошла или не найдена связь с событиями до этого». 3 тип добавлять в дополнительную обработку, что бы взаимосвязь устанавливалась в будущем, если взаимосвязь не установлена за определенный промежуток времени можно новость отсортировать в пустышку

iprst commented 5 months ago

Маркеры 11/22 есть в телегах, вк и других платформах(возможно не все новости из этих платформ попадают в общую канву) Потом производить перед анализом сравнение на чистку маркеров которые повторяются в нескольких платформах

Тот же гугл-алертс ищет в том числе в блогах, но он изначально не претендует на исчерпывающие данные, просто даже в режиме как есть данных получается чрезвычайно много. Если система будет искать контент в телегах, то количество данных будет только расти. Это к вопросу о «правильном» источнике, есть гипотеза, что такового не существует, и есть только «правильные» модули, которые размазываются по всем источникам с применением псевдослучайных алгоритмов.

Ну здесь все таки есть нюанс, так как обьем информации просто колоссальный, потребуется огромное количество ресурса( бесплатно в день можно будет на 1 аккаунт обработать примерно 40 млн токенов) И это не одномоментно так как ограничение стоит в 1 миллион токенов

Есть предположение, что в ходе изобретательства должна появиться промежуточная система для «токенизации» целых модулей а не токенов как таковых, то есть одна новость будет представлять собой один токен. Это утрированное представление, но смысл понятен — понижение размерности системы, что-то вроде линеаризации. Мы в геоматрице используем подобную логику, она не разработана в полной мере, но логически понятна, и основана на существующих системах кодирования координат, в частности Z-curves и кривой Гильберта. Поверхность планеты заранее разделена на конечное число ячеек, и если событие указывает на ячейку, то её можно рассматривать со всем содержимым как одно целое. Подобное «картирование» модулей тоже возможно изобрести. Я так понимаю что это и является вычислительным оракулом в данном случае. Сначала обучается полнотекстовая модель, а потом обучается какой-то категоризатор по модулям.

И тут вопрос еще вот какой, как объяснить ИИ что такое закономерность в новостях? Ей нужно показать примеры и дать небольшие тесты на прогон.

Я исхожу скорее из обратной предпосылки — как использовать ИИ в качестве оракула для обретения собственного понимания закономерностей? Мы то этих закономерностей пока не знаем. Известные примеры гипотетических связей по факту представляют собой ровно два подвида — геоматрицу, где никак не учитывается текст и смысл (но учитывается время и место), и что-то вроде книги «Последний Гамбит», где подход обратный, рассматривается смысл шифровки, но нет почти ничего о месте и времени.

iprst commented 5 months ago

Вообще на мой взгляд сначала стоит поработать с новостями для отбора, потом их чистить( например повторяющиеся, или на разных языках одна и та же новость, хотя в каком то языке она может быть условно с ключом) и потом уже скармливать БЯМ(Большой языковой модели) вычищенный контекст для определения на условную «пустышку» , «маркерную», «возможно маркерную, так как событие не произошла или не найдена связь с событиями до этого». 3 тип добавлять в дополнительную обработку, что бы взаимосвязь устанавливалась в будущем, если взаимосвязь не установлена за определенный промежуток времени можно новость отсортировать в пустышку

Мы пока не доказали формальных критериев значимости. Я думаю как повернуть ИИ в помощь именно этапу доказательства значимости критериев отбора. Пока из более-менее разработанных схем это геодезическая, там у нас много сделано и скоро можно будет проводить автоматические проверки, беря события из базы. Но геоматрица работает в двух противоположных режимах — на поиск прошлых новостей под известное событие, и на поиск будущего события на основании известных новостей. Эти логики взаимно дополняют друг друга, пользуясь единым аппаратом. То есть можно собрать контур обратной связи, который фактически будет фильтром новостей по координатам, указанным в тексте, сейчас это фактически единственный используемый фильтр.

БЯМ позволяет использовать совершенно иные виды фильтров и критериев, общая логика понятна, но конкретика неизвестна. Можно исходить из известного, автоматически искать «геодезические схемы» событий, то есть критерий текстового поиска — задание времени и координат в тексте новости на основании полученных из расчёта координат для новостей, и на основании таких отборов старых новостей под уже случившиеся события, обучить модель «правильным» новостям.

iprst commented 1 month ago

Какие успехи по новым большим моделям?