Testear Unity Sentis - Githubissues

DavidLMS commented 9 months ago

Subtareas:

Convertir https://huggingface.co/laion/clap-htsat-unfused (ejemplo de uso: https://colab.research.google.com/drive/12WgP6YFPjoMpILqS6LlCUCqRjY_XtsN_?usp=sharing) o https://huggingface.co/lukewys/laion_clap/blob/main/630k-audioset-best.pt a ONNX (formado aceptado por Unity Sentis).

Falla https://huggingface.co/docs/transformers/v4.20.1/en/serialization porque aún no soporta clap (animan a un PR). Solo se ha intentado con el binario de laion/clap-htsat-unfused (en carpeta unity-ai).

Resto de tutoriales encontrados requieren poner la estructura de la red neuronal antes de pasar de torch a ONNX.

Probar Sentis: https://discussions.unity.com/t/about-sentis-beta/260899 Ejemplos: https://github.com/Unity-Technologies/sentis-samples/tree/main

DavidLMS commented 9 months ago

¡Bingo! Aquí está el modelo con los pesos en formato ONNX ya: https://huggingface.co/Xenova/clap-htsat-unfused

DavidLMS commented 9 months ago

Para que funcione Unity Sentis, hay que usar una versión 2023.2 o superior.

DavidLMS commented 9 months ago

Instrucciones para instalar el paquete: Window > Package Manager, then click the + icon, select “Add package by name…” and type “com.unity.sentis”

DavidLMS commented 9 months ago

Es necesario tener una función específica para la carga de este modelo, interactuando con sus capas. He puesto un issue en la librería para que implementen este tipo de tarea: https://github.com/huggingface/unity-api/issues/22. A unas malas, podríamos implementarla nosotros mismos.

DavidLMS commented 9 months ago

Mientras tanto, es mejor optar por una solución que podamos llevar a cabo a corto plazo:

Implementar este tutorial: https://thomassimonini.substack.com/p/building-a-smart-robot-ai-using-hugging. Y así poder interpretar las órdenes del juego.
Añadir Speech to Text para poder hacer lo mismo por voz.

DavidLMS commented 9 months ago

La librería de Hugging Face no funciona de momento en la 2023 (porque depreca la librería TextMeshPro), así que el proyecto de prueba se realiza en la 2022.

DavidLMS commented 9 months ago

Dos formas de plantearlo:

Online (API de Hugging Face): https://thomassimonini.substack.com/p/building-a-smart-robot-ai-using-hugging
Local (ejecución del modelo en el equipo): https://thomassimonini.substack.com/p/create-an-ai-robot-npc-using-hugging

Primero probaré la opción Online.

DavidLMS commented 9 months ago

Creo que el Online está listo. Para probarlo, es necesario añadir antes el Speech Recognition.

DavidLMS commented 9 months ago

Demo más o menos funcional. Hay que esperar 5 segundos al inicio y luego cada 4 segundos hace grabación y calcula la acción. Problema: que se corte la grabación. A veces falla la API. Probar opción local.

DavidLMS commented 8 months ago

Thomas Simonini ya ha sacado un tutorial para la versión en local: https://thomassimonini.substack.com/p/building-ai-driven-voice-recognition

DavidLMS commented 8 months ago

Preparado el proyecto siguiendo instrucciones de https://thomassimonini.substack.com/p/building-ai-driven-voice-recognition. Falta:

Continuar modificando el código a partir del punto 5.
Una vez funcione Whisper en local, para conseguir tener el modelo que calcula la intención, es necesario el plugin https://github.com/huggingface/sharp-transformers/tree/main y descargar el modelo https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2.

DavidLMS commented 8 months ago

Añadido con éxito Whisper local en la escena MainNoFeel. Falta añadir el modelo de similaridad en local (actualmente añadido pero tirando de API).

IES-Rafael-Alberti / zombabusha

Testear Unity Sentis #1