Open KienTrann opened 3 years ago
Mình sẽ gửi sớm phần gợi ý sửa lại tóm tắt chương.
Hình 4.4b: Mình nghĩ rmsprop và adam đi như vậy là do tụi em cho learning rate nhỏ. Mình tò mò là không biết cho learning rate lớn hơn thì sẽ như thế nào nhỉ?
Dạ thật ra trong thí nghiệm này thì Adam có learning rate lớn hơn cả trường hợp (a) ạ, còn RMSprop thì nhỏ hơn. Chi tiết thì RMSprop có learning rate cho thí nghiệm aligned và nonaligned lần lượt là 0.76 và 0.388, còn Adam là 0.4436 và 0.9.
@hoangminhquan-lhsdt @nguyenngoclannhu
Gợi ý sửa:
Trong chương này, chúng tôi tiến hành các thí nghiệm nhằm kiểm chứng lý thuyết về thuật toán Adam đã trình bày ở chương 3. Trước hết, để so sánh kết quả cài đặt của chúng tôi với kết quả được công bố trong bài báo gốc, chúng tôi thí nghiệm huấn luyên mạng “Multi-layer Neural Network” trên bộ dữ liệu ảnh nhỏ là MNIST và mạng "Convolutional Neural Network" trên bộ dữ liệu ảnh trung là CIFAR10. Tiếp theo, chúng tôi thực hiện thí nghiệm trực quan hóa cách Adam và các thuật toán khác di chuyển trong trường hợp bề mặt lỗi có dạng rãnh hẹp và rãnh rất hẹp; dữ liệu được sử dụng trong thí nghiệm này là dữ liệu tự tạo và ít chiều để có thể trực quan hóa. Cuối cùng, để thấy rõ hơn về hiệu quả của Adam so với các thuật toán khác trong ngữ cảnh thực tế, chúng tôi thí nghiệm huấn luyện mạng "Convolutional Neural Network" trên bộ dữ liệu ảnh lớn là ImageNet và mạng "Long Short Term Memory" trên bộ dữ liệu văn bản [đúng không?] là Penn Treebank.
@hoangminhquan-lhsdt @nguyenngoclannhu
Các đề mục
Mình nghĩ nên gộp 2 mục này thành một và đặt tên đề mục là: \ So sánh Adam với các thuật toán khác trong trường hợp bề mặt lỗi có dạng rãnh hẹp (nhân tiện, mình nói một ý ở chương này mà có vẻ tụi em chưa nắm rõ: ở đây, nhân vật chính là Adam, và mình so sánh với các thuật toán khác là để thấy rõ hơn về Adam)
Trong đây mới chia làm 2 trường hợp con là:
Cả 2 trường hợp con này đều dùng cách setup thí nghiệm như ở 4.2.3. Mỗi mỗi trường hợp con có thể phân tích: đường đi, độ lớn bước đi theo mỗi hướng. Có thể chỉ làm với minibatch = 50; nếu thấy cần thì tụi em có thể thử thêm với minibatch = full.
Cho mình hỏi tí ở hình 4.4b: \ Mình nghĩ rmsprop và adam đi như vậy là do tụi em cho learning rate nhỏ. Mình tò mò là không biết cho learning rate lớn hơn thì sẽ như thế nào nhỉ?
Mình nghĩ đây là ứng với trường hợp rãnh hẹp mà các hướng có độ cong rất khác nhau, đúng không?
Nếu vậy thì nên đổi tên mục này là: \ So sánh Adam với các thuật toán khác trong trường hợp bề mặt lỗi có dạng rãnh rất hẹp
Gợi ý sửa: \ So sánh Adam với các thuật toán khác trong ngữ cảnh thực tế: huấn luyện mô hình VGG16
Gợi ý sửa: \ So sánh Adam với các thuật toán khác trong ngữ cảnh thực tế: huấn luyện mô hình ngôn ngữ