Open KienTrann opened 3 years ago
Thưa thầy Kiên
Ở đây, mình thấy tụi em dùng: "Gradient Descent", "Batch Gradient Descent", "Minibatch Gradient Descent". Tuy nhiên, cách dùng này không nhất quán với các chương khác.
Mình nghĩ có thể thống nhất là chỉ dùng "Gradient Descent" (GD) và "Stochastic Gradient Descent" (SGD). Trong đó, GD là ám chỉ full-batch, còn SGD là ám chỉ mini-batch.
Hiện tại thì trong phần Minibatch Gradient Descent tụi em có viết 1 đoạn là:
Trong đa số các bài báo khoa học, tác giả sử dụng khái niệm "Gradient Descent" để chỉ Batch Gradient Descent, và "Stochastic Gradient Descent" để nói tới Minibatch Gradient Descent. Để tạo sự thống nhất cũng như thuận tiện trong việc liên hệ giữa nội dung khóa luận với nội dung của các bài báo khoa học, từ thời điểm này, chúng tôi cũng sẽ sử dụng cách gọi tên tương tự cho các thuật toán này.
Từ sau đoạn này, tụi em mới bắt đầu dùng GD và SGD ạ.
@hoangminhquan-lhsdt Uh. Nhưng mình vẫn nghĩ là nên sửa, vì Thầy phản biện có thể không có thời gian, chỉ đọc abstract và các đề mục.
Dạ vậy nếu như tụi em sửa đề mục từ "Minibatch GD" thành "SGD" thì tụi em cũng sẽ bỏ luôn phần "Trong đa số các bài báo khoa học,..." đúng không ạ?
Còn phần lan truyền ngược thì em nghĩ là em sẽ thêm vào tóm tắt để đỡ công đoạn gộp vào với GD ạ.
Dạ vậy nếu như tụi em sửa đề mục từ "Minibatch GD" thành "SGD" thì tụi em cũng sẽ bỏ luôn phần "Trong đa số các bài báo khoa học,..." đúng không ạ?
Uh.
@hoangminhquan-lhsdt @nguyenngoclannhu
Mình gửi review phần tóm tắt chương và các đề mục của chương 2, version này.
GD/SGD sẽ là nền tảng cho các thuật toán tối ưu hóa được trình bày ở chương 3. Cuối cùng, chúng tôi trình bày về thuật toán lan truyền ngược (backpropagation) để tính véc-tơ đạo hàm riêng của độ lỗi theo từng trọng số của mạng nơ-ron nhiều tầng ẩn.
Câu "GD/SGD sẽ là ..." nên để sau cùng. Câu về backprop không liên kết tốt vào GD/SGD. \ Gợi ý sửa: \ "Cuối cùng, chúng tôi trình bày về thuật toán lan truyền ngược (backpropagation) để tính gradient một cách hiệu quả cho GD/SGD (gradient là véc-tơ đạo hàm riêng của độ lỗi theo từng trọng số của mạng nơ-ron). GD/SGD sẽ là nền tảng cho các thuật toán tối ưu hóa được trình bày ở chương 3."
2.5 “Lan truyền ngược” (Backpropagation)
Mình thấy đề mục này hơi không nhất quán với 2 đề mục trước: 2 đề mục trước có từ "thuật toán", tại nao đề mục này lại không có (đây cũng là thuật toán mà, đúng không?) \ Gợi ý sửa: \ 2.5 Thuật toán Backpropagation để tính gradient hiệu quả
@hoangminhquan-lhsdt @nguyenngoclannhu
Mình gửi review phần tóm tắt chương và các đề mục của chương 2, version này
Về mặt thuật ngữ
Ở đây, mình thấy tụi em dùng: "Gradient Descent", "Batch Gradient Descent", "Minibatch Gradient Descent". Tuy nhiên, cách dùng này không nhất quán với các chương khác.
Mình nghĩ có thể thống nhất là chỉ dùng "Gradient Descent" (GD) và "Stochastic Gradient Descent" (SGD). Trong đó, GD là ám chỉ full-batch, còn SGD là ám chỉ mini-batch.
Tóm tắt chương
Mình thấy câu "thuật toán tối ưu" không kết nối được với câu trước. \ Gợi ý sửa: \ "Đầu tiên, chúng tôi trình bày về mạng nơ-ron nhiều tầng ẩn và bài toán tối ưu hóa cần giải quyết khi huấn luyện mạng nơ-ron nhiều tầng ẩn; chúng tôi cũng trình bày về các thách thức của bài toán tối ưu hóa này. Tiếp theo, chúng tôi trình bày về thuật toán tối ưu cơ bản là Gradient Descent (GD) và phiên bản cải tiến là Stochastic Gradient Descent (SGD) để có thể giúp tối ưu hóa nhanh hơn khi tập dữ liệu huấn luyện có kích thước lớn. GD/SGD sẽ là nền tảng cho các thuật toán tối ưu hóa được trình bày ở chương kế."
Các đề mục
Gợi ý sửa: \ 2.2 Bài toán tối ưu hóa cần giải quyết khi huấn huyện mạng nơ-ron nhiều tầng ẩn
Gợi ý sửa: \ 2.3 Thuật toán tối ưu hóa Gradient Descent \ 2.4 Thuật toán tối ưu hóa Stochastic Gradient Descent
Xem xét gộp vào mục 2.3. Còn nếu không thì phải bổ sung thêm ở tóm tắt chương để cover mục này.