Improve term extraction and classification

aiwannafly commented 3 months ago

Sometimes class predictions for terms are incorrect:

I suggest to store examples of this kind and consider different improvements in the issue.

@pasukka

aiwannafly commented 3 months ago

I've added new parameter to config file: show-class-predictions.

This flags allows to see the class predictions for each term:

@pasukka

aiwannafly commented 3 months ago

As we can see in the example from above: probability of Dataset for .bin is pretty low: just 56%. If we set the threshold to 60%, the object will not be considered as a term.

aiwannafly commented 3 months ago

In examples like these the model is very confident:

pasukka commented 3 months ago

As we can see in the example from above: probability of Dataset for .bin is pretty low: just 56%. If we set the threshold to 60%, the object will not be considered as a term.

Agreed on doing so

aiwannafly commented 3 months ago

I retrained RoBERTa for the classification task. The predictions should be changed.

pasukka commented 3 months ago

Davinchi –самая крупная модель OpenAI (для понимания: при обучении модели использовалось более 150 миллиардов обучающих блоков, тогда как GPT-3,5 и GPT-4 обучались всего на 6 миллиардах блоков данных). Модель успешно решает задачи, связанные с поиском причинно-следственных связей, и генерирует более качественный текст, когда речь идет о сложных задачах. При этом Davinchi потребляет больше ресурсов и времени. Интерактивное взаимодействие с моделью происходит за счет «Промтов», то есть запросов, которые мы отсылаем в нейросеть. Поэтому эффективность применения ChatGPT напрямую зависит от такого, каким образом вы конструируете запрос.

в извлечении терминов не полностью выделяются GPT-3,5 и GPT-4

pasukka commented 3 months ago

Davinchi –самая крупная модель OpenAI (для понимания: при обучении модели использовалось более 150 миллиардов обучающих блоков, тогда как GPT-3,5 и GPT-4 обучались всего на 6 миллиардах блоков данных). Модель успешно решает задачи, связанные с поиском причинно-следственных связей, и генерирует более качественный текст, когда речь идет о сложных задачах. При этом Davinchi потребляет больше ресурсов и времени. Интерактивное взаимодействие с моделью происходит за счет «Промтов», то есть запросов, которые мы отсылаем в нейросеть. Поэтому эффективность применения ChatGPT напрямую зависит от такого, каким образом вы конструируете запрос.

в извлечении терминов не полностью выделяются GPT-3,5 и GPT-4

При этом выделяется в следующем предложении: Модели OpenAI, доступные к взаимодействию:GPT-3,5 и GPT-4 – это основные модели, с которыми мы работаем через Telegram или по API в базовых настройках. Это немодифицированные типовые модели, которые максимально оптимизированы для универсальных запросов под обычного пользователя. Они обучены на ограниченном количестве данных, но зато выдают самый быстрый результат из всех моделей. Ada - самая быстрая из всех моделей, способна выполнять такие задачи, как синтаксический анализ текста, исправление адреса и менее сложные задачи классификации. Babage - лучше всего подходит для простых задач классификации и выполняет SEO-анализ текста. Curie - подходит для задач классификация и анализа настроений. Модель также выдает результаты на запросы, отвечает на вопросы и может использоваться в качестве чат-бота общего назначения. Сравнение показывает, что она может выполнять многие задачи Davinci, но за 10% стоимости.

pasukka commented 3 months ago

Размеры модели извлекаются как Модель (512: Model, 1024: Model)

Что мы имеем из ванильных моделей:GPT-1 (2018) (Context: 512) - Работала не очень хорошо (длинные тексты генерировались плохо), но при файнтюнинге на отдельных задачах эта модель могла выполнять несложные задания. GPT-2 (2019) (Context: 1024) - стала лучше, научилась писать длинные связные тексты и даже решать задачи при помощи prompt engineering без обучения. GPT-3 (2020) (Context: 2048) - Стала в 10 (!) раз больше, и настолько крутой, что даже научилась писать рабочий программный код. RuGPT3, RuDialoGPT3, (Context: 512!) - и множество других дообученных версий GPT3 под русский язык было обучено и выложено Сбером в открытый доступ (В свое время я даже эссе по истории, общаге и паре спецов написал исключительно ими). Но был у них один небольшой нюанс. Небольшой он настолько же, как их контекст, длиной 512 токенов. (это как у самой первой GPT, да). Просто выяснилось, что если тренировать модель, рассчитанную на 2048 контекст кусками текста по 512, то она немного отупеет. Свято место пусто не бывает, кто-то должен был начать это монетизировать. Этим занялись сами создатели архитектуры - OpenAI, которые решили пойти против своего названия и запустить сайт, с чат интерфейсом своей новой версии GPT3, дообученной на контексте разметки чата - ChatGPT. В первый день её выхода в открытый тест я зарегал temp phone number и был разочарован. Он работал ничуть не лучше ванильной GPT3 на английском, а русский язык был вообще машинным переводом на входе и выходе. После выхода ChatGPT3.5 с закрытыми исходниками долгое время была видимость того, что развитие отечественной индустрии энтузиастами умрёт вместе с рождением ChatGPT4.

aiwannafly / semantics-analysis-system

Improve term extraction and classification #14