Sesli komut ile söylenilen komutun speech-to-text ile algılanması

cansakiroglu commented 1 year ago

İçerik

- Planımız Kaldi ASR yardımıyla kullanıcının cümlesini real-time bir şekilde string olarak çekebilmek. Bunu Kaldi'nin pre-trained modelleri yardımıyla yapacağız. Modeli seçip kullanmaya başladıktan sonra gerekirse kelime listesini güncelleyip modelin doğruluğunu artıracağız.
+ Oculus Voice SDK yardımıyla kullanıcının sesli komutunu yazıya dökmeyi hedefliyoruz. Bu işlevi ve ayrıca geliştirilen NLP modelini de bu issue kapsamında pipeline halinde birleştireceğiz.

Gereksinimler

Kullanıcının konuştuğu cümlenin string halinde çekilip NLP modeline vermeye hazır hale getirilmesi.
NLP modeline vermeye hazır hale getirilen çıktının NLP modeliyle birleştirilip örnek bir demo sunulması.

ETA

Sprint'in sonu

cagdasgerede commented 1 year ago

Bunun içeriği nedir? Tüm taskların içerikleri ve beklentiler tanımlanmalı. Ne zaman DONE yapılmış sayılacak tariflenmeli. Görev tanımı açık olmalı. ETA belirtilmeli. Eğer birinci sprint için yapılması hedeflendiyse belirtilmeli. Task'ın takım üyesine ataması yapılmalı.

sta314 commented 1 year ago

Bu task için başta planımız Kaldi ASR kullanmaktı, fakat daha sonradan Oculus ve Unity işbirliğiyle ortaya çıkan Voice SDK'i fark ettik. Bu SDK kolayca wit.ai hizmetlerinden yararlanabilmemizi sağlıyor. Sunulan hizmetler arasında da bizim de istediğimiz konuşmadan yazıya dönüştürme işlevi mevcut. SDK tarafından sunulan scriptler ve kendi yazdığımız scriptler yardımıyla beklenen çıktıyı alabiliyoruz.

Ayrıca bu task'a ek olarak bu issue kapsamında bu modül @BasakDemirok'un geliştirmiş olduğu NLP modeli'ne bağlanarak sesten aksiyona giden pipeline kurulmuş oldu. NLP modeli bağımsız bir şekilde gelişmeye devam ederken projemizde otomatik olarak güncellenebilecek diyebiliriz.

Kurulmuş olan yapı:

Untitled Diagram drawio (1)

Demo videosu:

https://user-images.githubusercontent.com/60339668/223138321-f3a8a6d7-ec49-4347-982c-33d3f51caca1.mp4

cansakiroglu / DesignIt

Sesli komut ile söylenilen komutun speech-to-text ile algılanması #10

İçerik

Gereksinimler

ETA