Open DavidLMS opened 9 months ago
¡Bingo! Aquí está el modelo con los pesos en formato ONNX ya: https://huggingface.co/Xenova/clap-htsat-unfused
Para que funcione Unity Sentis, hay que usar una versión 2023.2 o superior.
Instrucciones para instalar el paquete: Window > Package Manager, then click the + icon, select “Add package by name…” and type “com.unity.sentis”
Es necesario tener una función específica para la carga de este modelo, interactuando con sus capas. He puesto un issue en la librería para que implementen este tipo de tarea: https://github.com/huggingface/unity-api/issues/22. A unas malas, podríamos implementarla nosotros mismos.
Mientras tanto, es mejor optar por una solución que podamos llevar a cabo a corto plazo:
La librería de Hugging Face no funciona de momento en la 2023 (porque depreca la librería TextMeshPro), así que el proyecto de prueba se realiza en la 2022.
Dos formas de plantearlo:
Primero probaré la opción Online.
Creo que el Online está listo. Para probarlo, es necesario añadir antes el Speech Recognition.
Demo más o menos funcional. Hay que esperar 5 segundos al inicio y luego cada 4 segundos hace grabación y calcula la acción. Problema: que se corte la grabación. A veces falla la API. Probar opción local.
Thomas Simonini ya ha sacado un tutorial para la versión en local: https://thomassimonini.substack.com/p/building-ai-driven-voice-recognition
Preparado el proyecto siguiendo instrucciones de https://thomassimonini.substack.com/p/building-ai-driven-voice-recognition. Falta:
Añadido con éxito Whisper local en la escena MainNoFeel. Falta añadir el modelo de similaridad en local (actualmente añadido pero tirando de API).
Subtareas:
Falla https://huggingface.co/docs/transformers/v4.20.1/en/serialization porque aún no soporta clap (animan a un PR). Solo se ha intentado con el binario de laion/clap-htsat-unfused (en carpeta unity-ai).
Resto de tutoriales encontrados requieren poner la estructura de la red neuronal antes de pasar de torch a ONNX.