ratsgo / speechbook

articles about speech recognition
https://ratsgo.github.io/speechbook
Other
23 stars 1 forks source link

MFCCs - ratsgo's speechbook #4

Open utterances-bot opened 4 years ago

utterances-bot commented 4 years ago

MFCCs - ratsgo's speechbook

articles about speech recognition

https://ratsgo.github.io/speechbook/docs/fe/mfcc

DusanBaek commented 4 years ago

수정필요 wavfile 모듈이 아닌 듯하네요

from scipy.io import wavfile # import scipy.io.wavfile 시 오류 발생
sample_rate, signal = wavfile.read('example.wav')
DusanBaek commented 4 years ago

질문 드립니다.

멜 스펙트럼 혹은 로그 멜 스펙트럼은 태생적으로 피처(feature) 내 변수 간 상관관계(correlation)가 존재합니다. 그도 그럴 것이 멜 스케일 필터(수식5, 코드9)를 보면 주변 몇 개의 헤르츠 기준 주파수 영역대 에너지를 한데 모아 보기 때문입니다. 다시 말해 헤르츠 기준 특정 주파수 영역대의 에너지 정보가 멜 스펙트럼 혹은 로그 멜 스펙트럼의 여러 차원에 영향을 주는 구조입니다. 이는 변수 간 독립(independence)을 가정하고 모델링하는 가우시안 믹스처 모델(Gaussian Mixture Model)에는 독이 될 수 있습니다.

에서, 변수들이 비독립이여도 변수 별로 GMM을 하게되면 문제가 없을 것 같은데요, 변수 간 비독립이 GMM의 독이 되는 이유를 알 수 있을가요?

hccho2 commented 3 years ago

그림 4가 두번 있네요. 하나는 그림 5로 수정 필요.

hccho2 commented 3 years ago

MFCC결과에서 첫번째 열벡터(log mel spectrogram의 합)를 버리는 이유를 아래 그림으로 이해해도 될 것 같습니다. (그림에서는 가로/세로가 바뀌어 있습니다. 행벡터로 보시면 됩니다.)

MFCC2

왼쪽은 제일 아래쪽 라인의 값들이 너무 작어서(음수), 다른 값들이 힘을 못쓰고(?) 있습니다. 오른쪽은 제일 아래쪽 값을 제거한 상태라, 값들의 편차가 줄어들어 있습니다.

BradYi555 commented 3 years ago

안녕하세요. 음성 기반으로 프로젝트를 진행하는 학생입니다. 음성 데이터 자체를 처음 만져보고 구체적인 자료가 많지 않아서 많은 도움을 받아갑니다. 방금 자료를 찬찬히 살펴보고 궁금한 점이 있어서 코멘트 남깁니다. 위와 같이 추출할 경우, 제가 알고 있는 Graph 형태의 MFCC가 아니라 수치형으로 나오는데, 이 경우 어떻게 그래프 형태로 바꿀 수 있는지 알고싶습니다.

그리고 학습모델이나 서비스 모델로 개발하고자 하는 경우에 음성은 그래프 형태로 학습을 시키는지 혹은 다른 방법이 있는지 여부도 알고 싶습니다.

바쁘시지만 시간되시면 답변, 혹은 관련 자료 알려주시면 감사드립니다.

sunghoon-most commented 2 years ago

정말 감사합니다 ^^ 음향 분석 딥러닝에 많은 공부가 되었습니다. 유익한 정보 감사해요!

hyunseoki commented 2 years ago

stride에 대한 정의도 잘못된 것 같습니다 frame의 stride 정도라고 설명하는 것이 맞는 것 같습니다.

ooshyun commented 1 year ago

안녕하세요! 음성데이터에 대해서 자세한 자료 감사합니다!

혹시 "푸리에 변환시 발생할 수 있는 numerical problem 예방"라고 언급하셨는데, 찾아보는데도 구체적인 자료가 없어서 조금 더 자세하게 말씀해주실 수 있을까요?

bemoregt commented 10 months ago

주파수도메인에서 위상으로 영상처리하면 결과가 강건해집니다.

홍릉과학출판사, "딥러닝을 위한 푸리에 영상처리" http://hongpub.co.kr/shop/item.php?it_id=1679017270

추천 드립니다.