Theo mình thì thuộc tính "Thời điểm trong ngày" nên chuyển thành dạng category thay vì là dạng numeric (float). Lý do, nếu để thuộc tính này ở dạng numeric thì rất khó để regression thành công được. Vd: Buổi trưa sẽ dễ có mưa hơn buổi sáng và buỗi tối nên nếu để dạng numeric sẽ rất khó có trọng số phù hợp.
Nhóm mình có thắc mắc về sự chênh lệch đáng kể của dữ liệu train và dữ liệu test (16607 vs 66).
Nhóm bạn nên cập nhật thông tin bài toán, hướng dẫn sử dụng (nếu có) vào file Readme.
Cảm ơn nhóm bạn đã góp ý.
Dữ liệu của nhóm mình đáng tiếc do vi phạm tính hợp pháp nên phải parse lại từ nguồn khác
Mình đã cập nhật lại, không biết các bạn có ý kiến gì không
Chào bạn,