Open zosungwoo opened 3 years ago
멀티모달 모델 사용에 따라서, 음성과 함께 온전한 텍스트도 가져와야 한다.
"나는 오늘... 기분이 안좋았다" 처럼 음성을 말할 때 간격이 있도록 말하면 STT api가 온전한 텍스트로 변환하지 못하고 "나는 오늘" 까지만 반환하게 된다. 프론트쪽에서의 처리하거나 아니면 파이썬을 활용해 기술적으로 처리할 수 있는 방법이 있을까?
목적
멀티모달 모델 사용에 따라서, 음성과 함께 온전한 텍스트도 가져와야 한다.
상세내용
"나는 오늘... 기분이 안좋았다" 처럼 음성을 말할 때 간격이 있도록 말하면 STT api가 온전한 텍스트로 변환하지 못하고 "나는 오늘" 까지만 반환하게 된다. 프론트쪽에서의 처리하거나 아니면 파이썬을 활용해 기술적으로 처리할 수 있는 방법이 있을까?
참고사항