Open nguyen-quang-phu opened 4 years ago
Thank bạn đã góp ý. Vì hôm trước trình bày đề tài về dự đoán ngôn ngữ nên học này thấy có nhiều vấn đề nên nhóm mình đã đổi lại chủ đề. Chủ đề hiện tại của nhóm mình là:
Người dùng sẽ rating khoảng 10 (hoặc nhiều hơn) các phim mà mình đã xem trong quá khứ (theo số điểm 1-10)
Danh sách một số phim trong database mà người dùng nhiều khả năng sẽ thích
Thu thập một danh sách người dùng, mỗi người dùng có 1 danh sách các phim đã xem và rating của họ (>=100 phim/người). Từ danh sách này sẽ sử dụng thuật toán machine learning cho recommender system để tính ra được độ tương đồng của những người với nhau và những bộ phim với nhau, từ đó có thể dự đoán được rating của người dùng đối với những phim mà họ chưa xem.
chúng mình crawl dữ liệu từ trang IMDB. Đầu tiên là crawl danh sách những user có số lượng review lớn, lưu danh sách trong file crawl-users/users.txt. Sau đó với mỗi người thu thu thập tất cả rating của họ có, lưu trong các file crawl-ratings/ratingsxxx-yyy.csv Có cả các file crawler kèm theo, viết bằng Golang.
Bạn xem qua và có góp ý gì thì cho chúng mình biết nhé Thân
Chào bạn, mình có thắc mắc là:
Chào bạn, về các thắc mắc của bạn:
1612508- Nguyễn Quang Phú Chào các bạn, theo như mình thấy nhóm bạn thu thập dữ liệu chỉ thu thập số lượng ngôn ngữ theo từng năm. Khi báo cáo nhóm bạn nói khi nhập 1 từ khóa ví dụ như "data science" thì mô hình của bạn sẽ đưa ra nên học ngôn ngữ gì, vậy nhóm bạn có nên lấy thêm các thông tin khác không. Khi người dùng nhập một từ khóa thì có ràng buộc gì ko (như là phải thuộc trong lĩnh vực công nghệ thông tin không, ví dụ nếu mình cho từ khóa biology có được không hay là từ phải thuộc chuyên ngành như bioinformatics)