Mozer / talk-llama-fast

Port of OpenAI's Whisper model in C/C++ with xtts and wav2lip
MIT License
708 stars 64 forks source link

Распознавание экрана #20

Open Lingors opened 2 months ago

Lingors commented 2 months ago

Надеюсь можно создавать ищью на русском. Есть возможно прикрутить распознавание экрана? Чтобы нейронка могла взаимодействовать с ПК. Типо ты ей говоришь "запусти PyCharm", она видит его на рабочем столе и запускает его. Да, скорее всего нужно добавить еще какую-то нейронку которая с изображениями работает и скорее всего объяснить ей что в каких-то моментах надо именно на экран смотреть, а в каких-то просто отвечать на вопросы. Но, выглядит реально. Если нет, можешь объяснить почему? Заранее, спасибо за ответ.

Mozer commented 2 months ago

Сложно.

Есть встроенный в винду Копилот от Майкрософт. Он уже умеет запускать приложения и выполнять какие-то простые задачи, например убавить звук. Также он может видеть, что у вас открыто в браузере Edge. Не уверен на счет голосового управления, возможно тоже есть. Из РФ без VPN не работает (может есть какие-то лайфхаки, как сделать чтобы работал). https://www.wired.com/story/microsoft-windows-11-copilot-generative-ai-assistant-tips/