STT - Githubissues

fuyukawasann / GRIK

This project, developed for the 2024 graduation project at Hanyang University, utilizes YOLOv7-tiny to recognize handwritten notes in video lectures and summarizes them into a single PDF file, implemented on a Jetson Nano.

GNU General Public License v3.0

0 stars 0 forks source link

STT #19

Open ghijkli opened 4 months ago

ghijkli commented 4 months ago

STT colab 예시

https://velog.io/@noop00/%ED%95%9C%EA%B5%AD%EC%96%B4-%ED%85%8D%EC%8A%A4%ED%8A%B8-%EC%9A%94%EC%95%BD-AI-%EB%AA%A8%EB%8D%B8%EB%A1%9C-%EA%B0%80%EC%9D%B4%EB%93%9C-%EC%8A%A4%ED%81%AC%EB%A6%BD%ED%8A%B8-%EB%A7%8C%EB%93%A4%EA%B8%B0

https://github.com/cosmoquester/2021-dialogue-summary-competition/tree/master

fuyukawasann commented 4 months ago

모델을 정해서 돌려봐
파인튜닝 및 데이터셋 찾아보기
.py를 만들어
기존 프로젝트에 합쳐

fuyukawasann commented 4 months ago

모델: Whisper(STT) / BART(LLM) 테스트 해보기

fuyukawasann commented 4 months ago

Whisper를 테스트 했고, 한국어를 기존보다 더 잘 인식함을 확인할 수 있었음. 다만, 사용한 Whisper의 크기를 확인하지 않았기 때문에, 추후에 이를 확인해볼 필요성 생김

fuyukawasann commented 4 months ago

음질이 안 좋을 경우 음질 향상 인공지능을 먼저 적용 후, STT를 적용하면 어떨까?

fuyukawasann commented 4 months ago

일부러 음질이 안 좋은 강의 녹음 파일을 찾아서 테스트 해봄

음질 향상

여러 라이브러리가 있었지만, 다소 오래되고 유지보수 되지 않은 것들이 대부분이어서 오류가 발생했을 때 해결하기가 어려웠음
Libsora, soundfile, noisereduce를 사용함

STT

기존 논의는 Whisper를 사용하는 것이였지만, 다른 대안도 상정하기 위해 찾아봄
Wave2Vec 2.0 (Facebook AI)를 사용하여 진행
한국어도 되지만 그닥 정확한 느낌인 아님
STT 자체가 많은 RAM이 필요하기 때문에 청크 단위로 쪼개야 할 필요가 있었음