segment for coswara dataset + re-organize repo by dataset

Code cho phần segmentation của coswara dataset:

Segment 1 audio nhiều tiếng ho/âm thanh (utterance) thành nhiều audio nhỏ, mỗi audio chỉ có 1 tiếng ho duy nhất

Output 1 file csv tổng hợp các metadata + annotation (audio quality) cho từng đoạn audio nhỏ đã segment

Re-organize cho repo: Hiện tại repo có nhiều file và chưa rõ ràng nên hiện tại em chia làm 2 phần chính

EDA : bao gồm các notebook cho phần khai phá dữ liệu. Ở trong có các sub-dir theo từng dataset vì mình có nhiều dataset nên làm vậy để tránh nhầm lẫn

Preprocess: bao gồm code cho phần preprocess data. Hiện tại em gộp cả phần feature extraction (chuyển audio thành spectrogram ??) của bạn Đạt vào đây. Em cũng chia thành các sub directory theo từng dataset để tránh nhầm lẫn. Có thêm 1 README để chia sẻ command run code.

Hiện tại dataset coswara cũng khá lớn, và trên drive của anh @Linh đã có file zip coswara.zip rồi, nên em không upload lại dataset đã segmented nữa. Hoàn toàn có thể download dataset về và run command em đã take note trong README. Vì cũng không dùng thêm library gì đặc biệt (trừ pandas) nên em cũng không thêm dockerfile, hoàn toàn có thể chạy code trong virtualenv python. Code chạy cũng không quá lâu vì số lượng data đã được annotated còn khá ít.

covid19-detection / data_collection

segment for coswara dataset + re-organize repo by dataset #2