Các bạn cần mô tả đầu ra của bài toán rõ ràng hơn. Mình không rõ là nhóm bạn muốn đưa ra con số chính xác (đến số thập phân) của rating hay sẽ phân lớp rating theo từng giá trị. Ngoài ra con số dự đoán của các bạn là muốn dự đoán vào thời điểm nào (ngày mai, tháng sau, năm sau) do rating là một con số không cố định.
Dữ liệu của nhóm bạn phần lớn là kiểu chuỗi. Nên mình nghĩ khi đem vào dự đoán thực tế sẽ rất khó vì những mẫu dữ liệu không nằm trong train set. (những cuốn sách hoàn toàn mới, chưa có rating mà ta sẽ dự đoán) Ví dụ như có 1 tác giả mới hoàn toàn, làm sao để mô hình hoạt động khi nó hoàn toàn không có gì liên kết với dữ liệu cũ.
Mình thấy có 2 dòng đầu trong file data.xls có giá trị bị trùng lặp, các bạn có thể kiểm tra lại xem dữ liệu có còn dòng nào như vậy không
Chào bạn Mình có một số góp ý là: