IES-Rafael-Alberti / zombabusha

0 stars 0 forks source link

Testear Unity Sentis #1

Open DavidLMS opened 9 months ago

DavidLMS commented 9 months ago

Subtareas:

Falla https://huggingface.co/docs/transformers/v4.20.1/en/serialization porque aún no soporta clap (animan a un PR). Solo se ha intentado con el binario de laion/clap-htsat-unfused (en carpeta unity-ai).

Resto de tutoriales encontrados requieren poner la estructura de la red neuronal antes de pasar de torch a ONNX.

DavidLMS commented 9 months ago

¡Bingo! Aquí está el modelo con los pesos en formato ONNX ya: https://huggingface.co/Xenova/clap-htsat-unfused

DavidLMS commented 9 months ago

Para que funcione Unity Sentis, hay que usar una versión 2023.2 o superior.

DavidLMS commented 9 months ago

Instrucciones para instalar el paquete: Window > Package Manager, then click the + icon, select “Add package by name…” and type “com.unity.sentis”

DavidLMS commented 9 months ago

Es necesario tener una función específica para la carga de este modelo, interactuando con sus capas. He puesto un issue en la librería para que implementen este tipo de tarea: https://github.com/huggingface/unity-api/issues/22. A unas malas, podríamos implementarla nosotros mismos.

DavidLMS commented 9 months ago

Mientras tanto, es mejor optar por una solución que podamos llevar a cabo a corto plazo:

DavidLMS commented 9 months ago

La librería de Hugging Face no funciona de momento en la 2023 (porque depreca la librería TextMeshPro), así que el proyecto de prueba se realiza en la 2022.

DavidLMS commented 9 months ago

Dos formas de plantearlo:

Primero probaré la opción Online.

DavidLMS commented 9 months ago

Creo que el Online está listo. Para probarlo, es necesario añadir antes el Speech Recognition.

DavidLMS commented 9 months ago

Demo más o menos funcional. Hay que esperar 5 segundos al inicio y luego cada 4 segundos hace grabación y calcula la acción. Problema: que se corte la grabación. A veces falla la API. Probar opción local.

DavidLMS commented 8 months ago

Thomas Simonini ya ha sacado un tutorial para la versión en local: https://thomassimonini.substack.com/p/building-ai-driven-voice-recognition

DavidLMS commented 8 months ago

Preparado el proyecto siguiendo instrucciones de https://thomassimonini.substack.com/p/building-ai-driven-voice-recognition. Falta:

DavidLMS commented 8 months ago

Añadido con éxito Whisper local en la escena MainNoFeel. Falta añadir el modelo de similaridad en local (actualmente añadido pero tirando de API).