ccoreilly / deepspeech-catala

Deepspeech ASR Model for the Catalan Language
MIT License
17 stars 0 forks source link

Accuracy & loss #1

Closed bloodbare closed 3 years ago

bloodbare commented 4 years ago

Quin és el loss que vau obtenir ?

Nosaltres vam aconseguir un 30 https://github.com/stashify/deepspeech_cat

ccoreilly commented 4 years ago

Hola! Perdona que contesti ara però això no és més que un projecte personal i no he tingut gaire temps. Molt interessant el que esteu fent!

La veritat és que només he fet 10 èpoques pel que els resultats no són gaire interessants però aquí els tens:

Test on /home/ubuntu/extern/dataset_common_voice/clips/test.csv - WER: 0.257442, CER: 0.122027, loss: 44.547291
--------------------------------------------------------------------------------
Best WER:
--------------------------------------------------------------------------------
WER: 0.000000, CER: 0.000000, loss: 79.666771
 - wav: file:///home/ubuntu/extern/dataset_common_voice/clips/common_voice_ca_19024210.wav
 - src: "pluja per sant cristofol bones figues de moro pluja per santa anna ja es tardana"
 - res: "pluja per sant cristofol bones figues de moro pluja per santa anna ja es tardana"
--------------------------------------------------------------------------------
WER: 0.000000, CER: 0.000000, loss: 75.719017
 - wav: file:///home/ubuntu/extern/dataset_common_voice/clips/common_voice_ca_17373809.wav
 - src: "aquesta subvencio podra variar en funcio de les ordenances fiscals que s'aprovin cada any"
 - res: "aquesta subvencio podra variar en funcio de les ordenances fiscals que s'aprovin cada any"
--------------------------------------------------------------------------------
WER: 0.000000, CER: 0.000000, loss: 72.500412
 - wav: file:///home/ubuntu/extern/dataset_common_voice/clips/common_voice_ca_17503934.wav
 - src: "des de softcatala volem agrair la confiança que els centenars de milers d'usuaris dipositen en nosaltres"
 - res: "des de softcatala volem agrair la confiança que els centenars de milers d'usuaris dipositen en nosaltres"
--------------------------------------------------------------------------------
WER: 0.000000, CER: 0.000000, loss: 70.205772
 - wav: file:///home/ubuntu/extern/dataset_common_voice/clips/common_voice_ca_19897161.wav
 - src: "primera equipacio amb pantalons i samarreta negres i segona equipacio amb pantalons i samarreta blanca"
 - res: "primera equipacio amb pantalons i samarreta negres i segona equipacio amb pantalons i samarreta blanca"
--------------------------------------------------------------------------------
WER: 0.000000, CER: 0.000000, loss: 68.911751
 - wav: file:///home/ubuntu/extern/dataset_common_voice/clips/common_voice_ca_19689864.wav
 - src: "el mes següent renuncia a l'esco quan fou nomenat president de l'agencia valenciana de turisme"
 - res: "el mes següent renuncia a l'esco quan fou nomenat president de l'agencia valenciana de turisme"
--------------------------------------------------------------------------------
Median WER:
--------------------------------------------------------------------------------
WER: 0.187500, CER: 0.055556, loss: 63.501534
 - wav: file:///home/ubuntu/extern/dataset_common_voice/clips/common_voice_ca_19034384.wav
 - src: "les arreplegues de les argiles es troben cobertes pero no estan tancades lateralment i necessiten reparar-se"
 - res: "les arreplegues de les argiles es troben cobertes en estan tancades lateralment i necessiten repararse"
--------------------------------------------------------------------------------
WER: 0.187500, CER: 0.109890, loss: 62.195660
 - wav: file:///home/ubuntu/extern/dataset_common_voice/clips/common_voice_ca_19028538.wav
 - src: "el caporal va pujar a reclamar la presencia de l'electricista de guardia que era en carrion"
 - res: "el caporal va pujar a reclamar la presencia de la tacita de guardia que la en carrion"
--------------------------------------------------------------------------------
WER: 0.187500, CER: 0.070588, loss: 59.554398
 - wav: file:///home/ubuntu/extern/dataset_common_voice/clips/common_voice_ca_19044847.wav
 - src: "el valor del premi sera el que s'indica sota l'estri de cuina de la fila corresponent"
 - res: "el valor del premi sera el que s'indica sota l'estri la cuina de l'antiga corresponent"
--------------------------------------------------------------------------------
WER: 0.187500, CER: 0.060606, loss: 59.198509
 - wav: file:///home/ubuntu/extern/dataset_common_voice/clips/common_voice_ca_17461500.wav
 - src: "tot i aixo aquests dos cursos fluvials son els corredors biologics mes importants a l'area d'estudi"
 - res: "tot i aixo per aquest os cursos fluvials son els corredors biologics mes importants a l'area d'estudi"
--------------------------------------------------------------------------------
WER: 0.187500, CER: 0.118280, loss: 57.079815
 - wav: file:///home/ubuntu/extern/dataset_common_voice/clips/common_voice_ca_17475319.wav
 - src: "l'us permes per a l'aqüeducte es el de conduccio d'aigua mantingut des de la seua construccio"
 - res: "l'us permes per la quarta es el de conduccio d'aigua mantingut des de la seva construccio"
--------------------------------------------------------------------------------
Worst WER:
--------------------------------------------------------------------------------
WER: 2.000000, CER: 0.500000, loss: 4.566303
 - wav: file:///home/ubuntu/extern/dataset_common_voice/clips/common_voice_ca_19060666.wav
 - src: "milers"
 - res: "ni les"
--------------------------------------------------------------------------------
WER: 2.000000, CER: 0.166667, loss: 2.566535
 - wav: file:///home/ubuntu/extern/dataset_common_voice/clips/common_voice_ca_17377806.wav
 - src: "enlloc"
 - res: "en lloc"
--------------------------------------------------------------------------------
WER: 2.000000, CER: 0.600000, loss: 2.551299
 - wav: file:///home/ubuntu/extern/dataset_common_voice/clips/common_voice_ca_17452556.wav
 - src: "pareu"
 - res: "per a"
--------------------------------------------------------------------------------
--------------------------------------------------------------------------------
WER: 3.000000, CER: 0.750000, loss: 48.620560
 - wav: file:///home/ubuntu/extern/dataset_common_voice/clips/common_voice_ca_17516524.wav
 - src: "probablement"
 - res: "creua que ni"
--------------------------------------------------------------------------------
WER: 3.000000, CER: 0.700000, loss: 16.599766
 - wav: file:///home/ubuntu/extern/dataset_common_voice/clips/common_voice_ca_17450337.wav
 - src: "parpellejo"
 - res: "per per un"
--------------------------------------------------------------------------------

Heu fet servir exclusivament el dataset de Common Voice o heu afegit altres fonts?

Veig que en el vostre model heu matingut grafemes que no es troben a l'alfabet català. En principi el model de llenguatge evitaria transcripcions extranyes com 'pañ' en comptes de 'pany' però havia entès que era millor excloure grafemes extranys a la llengua.

El que m'agradaria provar ara és a extendre el LM amb més frases d'exemple. Pel que he llegit fer servir fonemes en comptes de grafemes hauria de millorar el reconeixement, però primer s'hauria de processar el dataset amb alguna eina com el phonetisaurus o semblant...