VinhLoiIT / DS_Final_Project

Final Project of Data Science course
0 stars 0 forks source link

[nhóm 1] góp ý cuối kì #3

Open VoNhatVinh opened 4 years ago

VoNhatVinh commented 4 years ago

Xin chào các bạn,

Mình có xem qua bài của các bạn, mình thấy kết quả mô hình chạy rất tốt, mình đánh giá cao. Có vài điểm mình còn thắc mắc, cũng như góp ý như sau:

  1. Trong thư mục dataset mình không thấy các file ảnh hay file dữ liệu như nhóm mô tả. image
  2. File dữ liệu của nhóm bạn là bao nhiêu ?
  3. Trong phần scale, tại sao nhóm bán lại scale về kích thước 64x128 ?
  4. Mình thấy có 2 file chạy phân lớp: 1 file chạy file gốc còn một file augmentation, nhưng mình thấy nó giống nhau, có điểm khác biệt gì giữa 2 file này không ?
  5. Dữ liệu augmentation khác gì dữ liệu bình thường?
  6. Nhóm bạn có thử chạy với các mô hình khác không, hay chỉ chạy với MLP, mình nghĩ có thể chạy nhiều mô hình để có sự so sánh tốt nhất.
VinhLoiIT commented 4 years ago

Chào bạn,

  1. Trong README mình có để link drive download dataset của nhóm. Lý do là vì giữa giai đoạn download dữ liệu về và áp dụng học máy cần có bước đánh label thủ công. Để đỡ mất thời gian thì nhóm mình upload sẵn dataset mà nhóm đã đánh label nên bạn chỉ cần chạy collect_data_v2 kiểm tra cách lấy data từ web có "đúng quy trình" không thôi :v
  2. Ý bạn là kích thước tập dữ liệu? @tvluon có vẽ histogram trong preprocess.ipynb, bạn xem trong README nhé.
  3. Nhóm chọn 64x128 vì đây là siêu tham số thuộc dạng "universal hyper parameter" vì tác giả thuật toán cũng có thử nghiệm trên nhiều kích thước khác và thấy kích thước này khá phù hợp cho nhiều tác vụ từ nhận dạng gương mặt, biển báo, con người, .... Nhóm mình cũng có thử với kích thước 32x64 và thấy tốc độ nhanh hơn và đỡ underfitting hơn do ảnh logo nhóm thu thập không to nên resize lên 64x128 dễ bị vỡ ảnh dẫn đến kết quả ko đc cao lắm
  4. Mình và thầy @KienTran89 có trao đổi qua issue #2, bạn xem qua nhé. Tóm tắt là do dữ liệu của tụi mình không phủ được nhiều trường hợp nên phải augmentation để phong phú dữ liệu hơn
  5. @tvluon
  6. Mình chỉ thử nghiệm trên MLP vì thấy nó khá đơn giản và thuộc phạm vi môn học như thầy có đề cập. Còn mô hình mạng khác thì chắc mình sẽ thử thêm trên SoftmaxRegression, cảm ơn bạn đã đề xuất
luontv commented 4 years ago

@VoNhatVinh,

VinhLoiIT commented 4 years ago
  1. Mình chỉ thử nghiệm trên MLP vì thấy nó khá đơn giản và thuộc phạm vi môn học như thầy có đề cập. Còn mô hình mạng khác thì chắc mình sẽ thử thêm trên SoftmaxRegression, cảm ơn bạn đã đề xuất

Sorry, khi mình chuẩn bị thêm LogisticRegression thì mình mới có suy nghĩ là, các thử nghiệm là thực hiện trên một mô hình cố định thay đổi các siêu tham số, chứ đâu có thay đổi mô hình đâu nhỉ @@ Nhờ thầy @KienTran89 confirm giúp ạ

KienTrann commented 4 years ago

@VinhLoiIT

Sorry, khi mình chuẩn bị thêm LogisticRegression thì mình mới có suy nghĩ là, các thử nghiệm là thực hiện trên một mô hình cố định thay đổi các siêu tham số, chứ đâu có thay đổi mô hình đâu nhỉ @@ Nhờ thầy @KienTran89 confirm giúp ạ

Nếu có thời gian thì em thử nghiệm trên nhiều mô hình khác nhau cũng không có vấn đề gì. Tuy nhiên, mình mong muốn là khi thử một mô hình nào thì tụi em phải hiểu rõ về mô hình đó, chứ không phải là thử mô hình A rồi mô hình B rồi mô hình C ... mà không hiểu rõ các mô hình này. Mình thấy với mô hình MLP thì việc thí nghiệm các siêu tham số cũng đã khá tốn thời gian. Ngoài ra, có thể xem Softmax Regression là MLP mà không có tầng ẩn ;-).