VinhLoiIT / DS_Final_Project

Final Project of Data Science course
0 stars 0 forks source link

Thắc mắc và nhận xét của nhóm 1 #2

Open ngockhain opened 4 years ago

ngockhain commented 4 years ago
VinhLoiIT commented 4 years ago
tvluon commented 4 years ago

Cuối cùng, cảm ơn bạn đã góp ý.

KienTrann commented 4 years ago

Bạn @VinhLoiIT có hỏi trên moodle về vụ chia các tập trước hay sau augmentation. Mình đã có trả lời trên moodle, nhưng sau khi nghe thấy kết quả 100% của tụi em thì mình vẫn đang suy nghĩ về vụ nên chia trước hay chia sau. Cho mình hỏi thêm:

VinhLoiIT commented 4 years ago

@KienTran89

  • Dữ liệu của tụi em là bao nhiêu lớp, mỗi lớp bao nhiêu ảnh? Tụi em chia ra các tập theo tỉ lệ bao nhiêu?

Dữ liệu hiện tại thì tụi em chia thành 5 lớp, @tvluon sẽ update histogram phân bố giữa các lớp sau ạ, tỉ lệ là 60-20-20 tương ứng train/val/test

  • Nếu không augmentation thì độ lỗi trên các tập là bao nhiêu?

Cái này em chưa chạy thử ạ

  • Nếu augmentation rồi mới chia thì độ lỗi trên các tập là bao nhiêu?

Em mới cập nhật ở commit 50eea4e17d89a7b78b6ffeac931a188b1d2aefe3 về dataset mới và kết quạ tạm thời ạ (do tụi em chưa chạy full để tìm các siêu tham số tối ưu).

tvluon commented 4 years ago

@KienTran89 , Thưa thầy, em đã update histogram dữ liệu trong file dataset/pre_process_data.ipynb, thầy có thể xem để biết dữ liệu phân bố thế nào trước và sau khi augmentation ạ.

KienTrann commented 4 years ago

@VinhLoiIT , @tvluon : Uh. Quay lại câu hỏi nên chia các tập trước hay sau augmentation, mình chép lại ý mà mình đã trả lời trên moodle:

Như mình có nói trên lớp, tập validation/test là để ước lượng độ lỗi khi triển khai thực tế. Để ước lượng tốt thì mình cần cố gắng làm qui trình xử lý trên tập validation/test giống như qui trình khi triển khai thực tế.

Mình đang hình dung khi triển khai thực tế thì thế nào. Đầu tiên, mình sẽ chụp tấm ảnh mà trong đó có logo và các thứ khác, rồi đi qua bước detection để ra ảnh chỉ chứa logo (hiện giờ tụi em đang làm bằng tay bước này phải không?). Như vậy thì ảnh chỉ chứa logo sau bước detection cũng có thể bị xoay, mờ sáng, che khuất, ... (do ảnh ban đầu là vậy), đúng không? Vậy thì tập valdation/test ở bước phân lớp cũng nên có những cái này.

Hiện giờ, tập dữ liệu mà tụi em thu thập được như thế nào? Có đủ đa dạng để phủ các trường hợp ảnh chụp trong thực tế không?

tvluon commented 4 years ago

@KienTran89 Dạ thưa thầy,

KienTrann commented 4 years ago

@tvluon , @VinhLoiIT Uh.