hoangminhquan-lhsdt / optimizers

Implementation of various optimizers running on test functions for optimization
2 stars 1 forks source link

Review Chương 2 #8

Open KienTrann opened 3 years ago

KienTrann commented 3 years ago

@hoangminhquan-lhsdt @nguyenngoclannhu

Mình gửi review phần tóm tắt chương và các đề mục của chương 2, version này

Về mặt thuật ngữ

Ở đây, mình thấy tụi em dùng: "Gradient Descent", "Batch Gradient Descent", "Minibatch Gradient Descent". Tuy nhiên, cách dùng này không nhất quán với các chương khác.

Mình nghĩ có thể thống nhất là chỉ dùng "Gradient Descent" (GD) và "Stochastic Gradient Descent" (SGD). Trong đó, GD là ám chỉ full-batch, còn SGD là ám chỉ mini-batch.

Tóm tắt chương

Đầu tiên, chúng tôi giới thiệu tổng quan về mạng nơ-ron nhiều tầng ẩn cũng như quá trình huấn luyện một mô hình mạng nơ-ron và những khó khăn cần khắc phục. Tiếp theo chúng tôi giới thiệu thuật toán tối ưu Gradient Descent

Mình thấy câu "thuật toán tối ưu" không kết nối được với câu trước. \ Gợi ý sửa: \ "Đầu tiên, chúng tôi trình bày về mạng nơ-ron nhiều tầng ẩn và bài toán tối ưu hóa cần giải quyết khi huấn luyện mạng nơ-ron nhiều tầng ẩn; chúng tôi cũng trình bày về các thách thức của bài toán tối ưu hóa này. Tiếp theo, chúng tôi trình bày về thuật toán tối ưu cơ bản là Gradient Descent (GD) và phiên bản cải tiến là Stochastic Gradient Descent (SGD) để có thể giúp tối ưu hóa nhanh hơn khi tập dữ liệu huấn luyện có kích thước lớn. GD/SGD sẽ là nền tảng cho các thuật toán tối ưu hóa được trình bày ở chương kế."

Các đề mục

2.2 Quá trình huấn huyện mạng nơ-ron nhiều tầng ẩn

Gợi ý sửa: \ 2.2 Bài toán tối ưu hóa cần giải quyết khi huấn huyện mạng nơ-ron nhiều tầng ẩn

2.3 “Gradient Descent” 2.3.1 “Batch” Gradient Descent 2.3.2 “Minibatch” Gradient Descent

Gợi ý sửa: \ 2.3 Thuật toán tối ưu hóa Gradient Descent \ 2.4 Thuật toán tối ưu hóa Stochastic Gradient Descent

2.4 “Lan truyền ngược” (Backpropagation)

Xem xét gộp vào mục 2.3. Còn nếu không thì phải bổ sung thêm ở tóm tắt chương để cover mục này.

hoangminhquan-lhsdt commented 3 years ago

Thưa thầy Kiên

Ở đây, mình thấy tụi em dùng: "Gradient Descent", "Batch Gradient Descent", "Minibatch Gradient Descent". Tuy nhiên, cách dùng này không nhất quán với các chương khác.

Mình nghĩ có thể thống nhất là chỉ dùng "Gradient Descent" (GD) và "Stochastic Gradient Descent" (SGD). Trong đó, GD là ám chỉ full-batch, còn SGD là ám chỉ mini-batch.

Hiện tại thì trong phần Minibatch Gradient Descent tụi em có viết 1 đoạn là:

Trong đa số các bài báo khoa học, tác giả sử dụng khái niệm "Gradient Descent" để chỉ Batch Gradient Descent, và "Stochastic Gradient Descent" để nói tới Minibatch Gradient Descent. Để tạo sự thống nhất cũng như thuận tiện trong việc liên hệ giữa nội dung khóa luận với nội dung của các bài báo khoa học, từ thời điểm này, chúng tôi cũng sẽ sử dụng cách gọi tên tương tự cho các thuật toán này.

Từ sau đoạn này, tụi em mới bắt đầu dùng GD và SGD ạ.

KienTrann commented 3 years ago

@hoangminhquan-lhsdt Uh. Nhưng mình vẫn nghĩ là nên sửa, vì Thầy phản biện có thể không có thời gian, chỉ đọc abstract và các đề mục.

hoangminhquan-lhsdt commented 3 years ago

Dạ vậy nếu như tụi em sửa đề mục từ "Minibatch GD" thành "SGD" thì tụi em cũng sẽ bỏ luôn phần "Trong đa số các bài báo khoa học,..." đúng không ạ?

Còn phần lan truyền ngược thì em nghĩ là em sẽ thêm vào tóm tắt để đỡ công đoạn gộp vào với GD ạ.

KienTrann commented 3 years ago

Dạ vậy nếu như tụi em sửa đề mục từ "Minibatch GD" thành "SGD" thì tụi em cũng sẽ bỏ luôn phần "Trong đa số các bài báo khoa học,..." đúng không ạ?

Uh.

KienTrann commented 3 years ago

@hoangminhquan-lhsdt @nguyenngoclannhu

Mình gửi review phần tóm tắt chương và các đề mục của chương 2, version này.

Tóm tắt chương

GD/SGD sẽ là nền tảng cho các thuật toán tối ưu hóa được trình bày ở chương 3. Cuối cùng, chúng tôi trình bày về thuật toán lan truyền ngược (backpropagation) để tính véc-tơ đạo hàm riêng của độ lỗi theo từng trọng số của mạng nơ-ron nhiều tầng ẩn.

Câu "GD/SGD sẽ là ..." nên để sau cùng. Câu về backprop không liên kết tốt vào GD/SGD. \ Gợi ý sửa: \ "Cuối cùng, chúng tôi trình bày về thuật toán lan truyền ngược (backpropagation) để tính gradient một cách hiệu quả cho GD/SGD (gradient là véc-tơ đạo hàm riêng của độ lỗi theo từng trọng số của mạng nơ-ron). GD/SGD sẽ là nền tảng cho các thuật toán tối ưu hóa được trình bày ở chương 3."

Các đề mục

2.5 “Lan truyền ngược” (Backpropagation)

Mình thấy đề mục này hơi không nhất quán với 2 đề mục trước: 2 đề mục trước có từ "thuật toán", tại nao đề mục này lại không có (đây cũng là thuật toán mà, đúng không?) \ Gợi ý sửa: \ 2.5 Thuật toán Backpropagation để tính gradient hiệu quả