fuyukawasann / GRIK

This project, developed for the 2024 graduation project at Hanyang University, utilizes YOLOv7-tiny to recognize handwritten notes in video lectures and summarizes them into a single PDF file, implemented on a Jetson Nano.
GNU General Public License v3.0
0 stars 0 forks source link

STT #19

Open ghijkli opened 4 months ago

ghijkli commented 4 months ago

STT colab 예시

https://velog.io/@noop00/%ED%95%9C%EA%B5%AD%EC%96%B4-%ED%85%8D%EC%8A%A4%ED%8A%B8-%EC%9A%94%EC%95%BD-AI-%EB%AA%A8%EB%8D%B8%EB%A1%9C-%EA%B0%80%EC%9D%B4%EB%93%9C-%EC%8A%A4%ED%81%AC%EB%A6%BD%ED%8A%B8-%EB%A7%8C%EB%93%A4%EA%B8%B0

https://github.com/cosmoquester/2021-dialogue-summary-competition/tree/master

fuyukawasann commented 4 months ago
  1. 모델을 정해서 돌려봐
  2. 파인튜닝 및 데이터셋 찾아보기
  3. .py를 만들어
  4. 기존 프로젝트에 합쳐
fuyukawasann commented 4 months ago

모델: Whisper(STT) / BART(LLM) 테스트 해보기

fuyukawasann commented 4 months ago

Whisper를 테스트 했고, 한국어를 기존보다 더 잘 인식함을 확인할 수 있었음. 다만, 사용한 Whisper의 크기를 확인하지 않았기 때문에, 추후에 이를 확인해볼 필요성 생김

fuyukawasann commented 4 months ago

음질이 안 좋을 경우 음질 향상 인공지능을 먼저 적용 후, STT를 적용하면 어떨까?

fuyukawasann commented 4 months ago

일부러 음질이 안 좋은 강의 녹음 파일을 찾아서 테스트 해봄

음질 향상

STT