Closed palandlom closed 3 years ago
300000 - достаточный размер, можно попробовать поменять формат или потыкать параметры при обучении и генерации. Я обучаю его отвечать на комментарии(два датасета в 2500 и 25000 комментариев, т.к. иначе обучение занимает целую вечность в колабе) и формат сделал следующий:
[Вопрос] Текст комментария 1
[Ответ] Текст комментария 2 [Конец]
Где текст комментариев в одну строку без переносов. Подаю на вход, например:
[Вопрос] Расскажи анекдот
[Ответ]
и он пытается рассказывать анекдоты, т.е. вполне обучается формату, и если запрашивать достаточно длинную последовательность, то там будет токен [Конец] и мысль не обрывается на середине.
Спасибо за ответ.
... да - игра с параметрами ( max_length=420, repetition_penalty=1.0
) немного могла:
В этом выпуске мы поговорим о том, как мы использовали Microsoft Azure, какие инструменты и технологии использовать для создания облачных сервисов, а также о том, как использовать технологии и инструменты, которые позволяют создавать облачные сервисы, которые могут работать с облачными сервисами, а именно это облачными сервисами, и мобильными сервисами.
[Сущность] Microsoft Azure [Конец] Microsoft Azure.
[Сущность] Microsoft [Конец]
[Предложение]
[Предложение] Microsoft Azure Microsoft Azure [Конец]
В этом выпуске мы поговорим о том, как мы использовали Microsoft Azure и о том, как мы внедрили в наш облачный бизнес PaaS-сервис.
[Сущность] Microsoft [Конец]
[Предложение] В этом выпуске мы поговорим о том, что Microsoft Azure может стать облачным провайдером, как Paaaс, что может стать провайдером и как сервисом и как сервисом Azure.
[Сущность как сервисом Azure как сервисом как сервис Azure как сервис и как сервис Azure что будет Azure что будет в Azure что будет с Azure что Azure будет с ним делать и почему Azure будет, как сервис и что будет Azure и почему Azure что будет Azure будет с Pa как сервис и что это сервис и что будет Azure что Azure что будет Azure что будет Pa Azure что будет Azure и что будет PHub что будет Paaaaaaa Azure как сервис и как сервис как сервис как сервис и как сервис Azure что будет Pa Paaa Azure что будет Paa Paaaaaaa PaaaS-huba-PaaaaS и как сервис как сервис Azure как сервис и что будет Pa-h-h-huba-Paaaa-hubaS как сервис Azure что будет что это и что будет Pa-huba-h-s-h-h-huba-h-huba-hub и как Pa и как Pa-huba-huba-hub-huba-huba-hub-huba-hub-hub как это как Azure и т.
[Сущность Pa-hub и что-hub и что будет Pa-hub как Azure-hub и так и так и что-hub и что
... конечно далеко от того, что надо - много "мусора".
Для задачи NER мы не проверяли наши модели. возможно ваша модель не доучилась + как было сказано, параметры генерации очень решают
Хотел обучить для NER малую модель - сделал обуч. набор (300 000 образцов) с образцами такого формата:
... сделал также валидационный набор такого же формата (не оч. понял зачем он тренировочному скрипту).
Как я понял, модель должны обучиться формату т.е. я ей на вход даю незаконченный образец, а она его дописывает. Результаты такие:
... т.е. вроде как модель не обучилась формату - не дописывает окончание - верно? Т.е. нужно больший набор на для обучения?