Review Chương 3 - Githubissues

KienTrann commented 3 years ago

Mình gửi review về phần thuật toán Adam trong chương 3, version này. Warning: chuẩn bị tinh thần để nghe chê ;-).

Thuật toán Adam

Mình thấy phần này có vẻ tụi em viết vẫn còn hơi theo kiểu dịch dựa vào paper, chứ chưa viết ra được dựa vào sự hiểu thật sự của tụi em. Mình đọc thì thấy rối, cái cần nói thì tụi em không nói, cái không cần nói thì tụi em lại nói.

Gợi ý sửa về cấu trúc của phần này:

Nói về idea của Adam, diễn giải cụ thể idea của Adam với các công thức (để không làm rối người đọc thì chỉ đưa ra công thức mà không có bias correction), trong quá trình diễn giải thì so sánh với Momentum và RMSprop để người đọc thấy rõ điểm mạnh của Adam so với chỉ dùng Momentum hoặc chỉ dùng RMSprop. Cuối cùng, chốt lại bằng box chứa các bước của thuật toán Adam (giống như trong paper, nhưng không có bias correction)
Kế đến, nói về idea của bias correction, đưa ra công thức (không chứng minh), giải thích ý nghĩa của công thức bằng cách cho một ví dụ để cho thấy nếu không dùng bias correction thì bị vấn đề xyz, còn dùng bias correction thì không bị vấn đề này. Phần chi tiết chứng minh thì để vào phụ lục, người đọc nào quan tâm thì có thể đọc.

Tuy nhiên, khác với Momentum, Adam không tích luỹ quán tính phụ thuộc vào độ lớn của bước cập nhật mà thực hiện xấp xỉ dựa vào các giá trị “moment” của gradient

Mình nghĩ chỉ nên nói về cách Momentum được kết hợp với RMSprop trong Adam, chứ không nên nói về các cách khác mà Momentum có thể được kết hợp với RMSprop; vì nếu nói thì tụi em phải so sánh các cách kết hợp này với nhau và phải có thí nghiệm để kiểm chứng. Ngoài ra, phần về "moment" mình cũng cảm thấy rối và có lẽ là không cần thiết.

Dưới đây, mình cố gắng ghi ra các idea chính của Adam theo nhận thức hiện giờ của mình để tụi em tham khảo và thảo luận:

Giống như Momentum, Adam dùng trung bình chạy có trọng số của gradient (trọng số trong trung bình chạy được giảm dần từ hiện tại đến quá khứ) để giảm bớt sự di chuyển theo các hướng mà hình chiếu của gradient có dấu không ổn định, và tăng cường sự di chuyển theo các hướng mà hình chiếu của gradient có dấu ổn định. Sự không ổn định có thể là ứng với trường hợp "rãnh hẹp" (và tỉ lệ học không đủ nhỏ); sự không ổn định có thể đến từ việc ước lượng gradient trên toàn bộ tập huấn luyện dựa vào gradient của một minibatch; sự không ổn định cũng có thể đến từ việc áp dụng phương pháp dropout ngẫu nhiên để chống overfitting trong quá trình huấn luyện.
Trong trường hợp "rãnh hẹp" mà các chiều có độ cong rất khác nhau thì việc dùng Momentum có thể không đủ để đi nhanh về hướng cực tiểu (cụ thể: theo hướng có độ cong rất nhỏ, mặc dù gradient được tích tụ nhưng vẫn sẽ không đủ lớn; theo hướng có độ cong rất lớn, mặc dù gradient phần nào được triệt tiêu nhưng phần còn lại vẫn lớn so với hướng có độ cong rất nhỏ). Adam phần nào khắc phục vấn đề này của Momentum bằng cách tích hợp thêm RMSprop: tính tỉ lệ học riêng cho mỗi tham số bằng cách chia tỉ lệ học chung cho trung bình chạy có trọng số của bình phương đạo hàm riêng -> tham số mà trong lịch sử gần đây có các độ lớn đạo hàm riêng nhỏ (ứng với hướng mà bề mặt lỗi có độ cong thấp) thì sẽ có tỉ lệ học lớn và tham số mà trong lịch sử gần đây có các độ lớn đạo hàm riêng lớn (ứng với hướng mà bề mặt lỗi có độ cong cao) thì sẽ có tỉ lệ học nhỏ. Tuy nhiên, cách làm này của RMSprop chỉ hoạt động tốt khi các hướng có độ cong cao/thấp của bề mặt lỗi là ứng với các trục tham số.

KienTrann commented 3 years ago

Về cách trình bày liên quan đến công thức

Khi trình bày liên quan đến công thức thì cách làm thường thấy là ... Chắc để mình cho một ví dụ. \ "Công thức cập nhật là: \ w = ... (đánh số) \ Trong đó, ...."

Tuy nhiên, mình thấy có khi đầu tiên tụi em không nói gì mà quăng ra ngay một công thức. Sau khi đưa ra công thức cũng không giải thích ý nghĩa của các ký hiệu.

KienTrann commented 3 years ago

Tóm tắt chương

Chương này trình bày về thuật toán tối ưu Adam và cách thuật toán khắc phục khó khăn trong huấn luyện mạng nơ-ron nhiều tầng ẩn mà khoá luận tập trung tìm hiểu. Đầu tiên chúng tôi trình bày về các thuật toán nền tảng: (1) thuật toán Gradient Descent với Momentum để tăng tốc và giảm dao động trong quá trình di chuyển trên bề mặt lỗi, và (2) thuật toán Gradient Descent với tỉ lệ học thích ứng với từng trọng số, cụ thể là thuật toán Adagrad và RMSprop. Dựa trên nền hai thuật toán này, chúng tôi trình bày ý tưởng của thuật toán Adam cũng như những ưu/khuyết điểm của thuật toán trong giải quyết các khó khăn của bài toán huấn luyện mạng nơ-ron.

Gợi ý sửa: \ "Chương này trình bày về thuật toán Adam được đề xuất bởi [ref] để giải quyết bài toán huấn luyện mạng nơ-ron nhiều tầng ẩn; đây là thuật toán mà khóa luận tập trung tìm hiểu. Đầu tiên, chúng tôi trình bày về các thuật toán nền tảng: (1) thuật toán Stochastic Gradient Descent với Momentum để tăng tốc và giảm dao động trong quá trình di chuyển trên bề mặt lỗi, và (2) thuật toán Stochastic Gradient Descent với tỉ lệ học thích ứng cho từng trọng số để có thể di chuyển tốt trong trường hợp bề mặt lỗi có độ cong khác nhau nhiều theo các hướng ứng với các trọng số. Sau đó, chúng tôi trình bày về thuật toán Adam - một cách kết hợp hai thuật toán đã nói lại để giúp giải quyết tốt hơn bài toán huấn luyện mạng nơ-ron nhiều tầng ẩn."

KienTrann commented 3 years ago

Mình có xem kết quả thí nghiệm về đặc trưng thưa ở chương 4 (mình tạm ghi ở đây vì liên quan đến các idea của Adam) thì thấy momentum chạy tốt hơn rmsprop (hình 4.7, hình con bên phải)?

nguyenngoclannhu commented 3 years ago

Dạ thưa thầy, siêu tham số được dùng trong thí nghiệm trên là giá trị mặc định của thuật toán, em chỉ điều chỉnh tỉ lệ học của thuật toán. Đối với thuật toán RMSprop, sử dụng tỉ lệ học lớn hơn thì em có thấy hiện tượng độ lỗi của RMSprop tăng trở lại do dao động quanh điểm cực tiểu và cuối cùng dừng tại điểm cách khá xa.

KienTrann commented 3 years ago

@hoangminhquan-lhsdt @nguyenngoclannhu

Mình gửi review phần tóm tắt chương và các đề mục của chương 3, version này.

Như đã thống nhất, mình chỉ dùng 2 thuật ngữ là Gradient Descent (GD) và Stochastic Gradient Descent (SGD). Hiện giờ, trong phần tóm tắt chương, tụi em ghi là SGD, nhưng ở các đề mục thì ghi là GD. Mình nghĩ có thể sửa ở các đề mục thành SGD vì trong thực tế thì sẽ dùng minibatch. Ở trong nội dụng mỗi đề mục thì tụi em vẫn có thể dùng GD/SGD để ám chỉ GD và SGD nói chung.

KienTrann commented 3 years ago

Mục 3.3

Review nhanh:

Sự bất ổn định có thể đến từ việc áp dụng các biện pháp hạn chế sự overfit của mô hình, hay còn gọi là “regularization”

Như này thì "vơ đũa cả nắm" rồi. Sự bất ổn định ở đây là đến từ phương pháp dropout thôi, vì phương pháp này có sự ngẫu nhiên. Còn chẳng hạn dùng weight decay thì không có vấn đề bất ổn định.

hoangminhquan-lhsdt / optimizers

Review Chương 3 #7

Thuật toán Adam

Về cách trình bày liên quan đến công thức

Tóm tắt chương

Mục 3.3