음성 사이에 간격이 있을 시 STT api가 해당 간격까지만 text로 변환하는 문제

목적

멀티모달 모델 사용에 따라서, 음성과 함께 온전한 텍스트도 가져와야 한다.

"나는 오늘... 기분이 안좋았다" 처럼 음성을 말할 때 간격이 있도록 말하면 STT api가 온전한 텍스트로 변환하지 못하고 "나는 오늘" 까지만 반환하게 된다. 프론트쪽에서의 처리하거나 아니면 파이썬을 활용해 기술적으로 처리할 수 있는 방법이 있을까?