Chào ad. e đang tìm hiểu về asr. có một vấn đề là việc map các kí tự trong tiếng việt để encode sang int array cho vào train model. e xem qua thì thấy code sử dụng map từ word2phone mà e chưa rõ lắm là đang sử dụng out là word hay char(90 kí tự trong TV) hay phone(âm vị hay gì đó..) để encode text và sử dụng cho decode khi predict. và e muốn áp dụng cho CTC trong tensorflow, vì vậy muốn hiểu rõ về số output của mạng đối với tiếng việt
Em cảm ơn!
Chào ad. e đang tìm hiểu về asr. có một vấn đề là việc map các kí tự trong tiếng việt để encode sang int array cho vào train model. e xem qua thì thấy code sử dụng map từ word2phone mà e chưa rõ lắm là đang sử dụng out là word hay char(90 kí tự trong TV) hay phone(âm vị hay gì đó..) để encode text và sử dụng cho decode khi predict. và e muốn áp dụng cho CTC trong tensorflow, vì vậy muốn hiểu rõ về số output của mạng đối với tiếng việt Em cảm ơn!