chanil1218 / Attention-SE.pytorch

An Attention-based Neural Network Approach for Single Channel Speech Enhancement
25 stars 15 forks source link

데이터셋 로딩 및 noisy speech data loader #1

Closed chanil1218 closed 4 years ago

chanil1218 commented 4 years ago
chanil1218 commented 4 years ago
chanil1218 commented 4 years ago

Noisy dataset make reference(matlab version) - https://github.com/jtkim-kaist/Speech-enhancement/blob/master/Datamake/make_train_noisy.m (python version) https://github.com/Sato-Kunihiko/audio-SNR

chanil1218 commented 4 years ago

Python version noisy speech generation + DEMAND Dataset for Noise only unseen dataset candidate Tutorial https://engineering.linecorp.com/ko/blog/voice-waveform-arbitrary-signal-to-noise-ratio-python/

chanil1218 commented 4 years ago

데이터셋 로딩할 때에 noisy speech와 clean speech 까지만 모델로 전달하고 STFT 적용해서 spectrogram으로 바꾸는 파트는 DCUnet.pytorch 구현의 경우에는 model layer로 들어가 있어요. ISTFT도 model layer로 들어가있고요.

CC: @rownrrns

ddw02141 commented 4 years ago

다른 분들이 진행시에 데이터 파일이 가장 먼저 필요할 것 같아서 필요한 데이터셋 먼저 공유해 드립니다

https://drive.google.com/file/d/1R76jEq-TYBK_VeUIjcHI1g2izpH9ek4E/view?usp=sharing (9.8 GB)

clean speech로 부터 noise를 mix하여 noisy 파일을 만들 때 사용한 snr 값은 아래와 같습니다

다른 궁금한 점 있으시면 알려주세요 !

chanil1218 commented 4 years ago

헉 용량;

이거 Noisy speech를 만들어서 올린거지? 그러면 Unseen noise에 대해서 Noisy Speech 만들 때에는 다시 만들어서 올려야 할 것 같은데, Clean audio랑 Noise audio를 가지고 코드에서 만드는게 낫지 않으려나?

그리고 Train / Valid / Test 를 분리해서 각각 압축 파일로 만들어놔야 할 것 같아. 안그럼 테스트 할 때에도 Train셋까지 전체를 다운 받아야 해서.

ddw02141 commented 4 years ago

코드에서 만들었고 해당 코드는 저희 프로젝트 내용에는 추가할 필요가 없는 것 같아서 업로드하지는 않았습니다! 필요하다면 업로드 할게요

ddw02141 commented 4 years ago

train : https://drive.google.com/open?id=1CULVCAq0T3wqZTPGIqPja6OtwjYJkGAy (4.9GB) valid : https://drive.google.com/open?id=1WE229Jt9WV2iZbxY7YjkYIfSZyCHz9Iq (1.6GB) test : https://drive.google.com/open?id=1mERBbcwBgGjRpHeGf3d871DEW4EvI7fi (3.3GB) gdrive 저장 용량이 부족해 기존 링크는 파기하였습니다