lehoanganh298 / Data-Science-Project

0 stars 0 forks source link

Góp ý lần 1 #1

Open nguyen-quang-phu opened 4 years ago

nguyen-quang-phu commented 4 years ago

1612508- Nguyễn Quang Phú Chào các bạn, theo như mình thấy nhóm bạn thu thập dữ liệu chỉ thu thập số lượng ngôn ngữ theo từng năm. Khi báo cáo nhóm bạn nói khi nhập 1 từ khóa ví dụ như "data science" thì mô hình của bạn sẽ đưa ra nên học ngôn ngữ gì, vậy nhóm bạn có nên lấy thêm các thông tin khác không. Khi người dùng nhập một từ khóa thì có ràng buộc gì ko (như là phải thuộc trong lĩnh vực công nghệ thông tin không, ví dụ nếu mình cho từ khóa biology có được không hay là từ phải thuộc chuyên ngành như bioinformatics)

lehoanganh298 commented 4 years ago

Thank bạn đã góp ý. Vì hôm trước trình bày đề tài về dự đoán ngôn ngữ nên học này thấy có nhiều vấn đề nên nhóm mình đã đổi lại chủ đề. Chủ đề hiện tại của nhóm mình là:

Xây dựng một movie recommender - giới thiệu cho người dùng những phim mà người dùng có khả năng cao là sẽ thích

Input:

Người dùng sẽ rating khoảng 10 (hoặc nhiều hơn) các phim mà mình đã xem trong quá khứ (theo số điểm 1-10)

Output:

Danh sách một số phim trong database mà người dùng nhiều khả năng sẽ thích

Cách huấn luyện:

Thu thập một danh sách người dùng, mỗi người dùng có 1 danh sách các phim đã xem và rating của họ (>=100 phim/người). Từ danh sách này sẽ sử dụng thuật toán machine learning cho recommender system để tính ra được độ tương đồng của những người với nhau và những bộ phim với nhau, từ đó có thể dự đoán được rating của người dùng đối với những phim mà họ chưa xem.

Dữ liệu đã thu thập được :

chúng mình crawl dữ liệu từ trang IMDB. Đầu tiên là crawl danh sách những user có số lượng review lớn, lưu danh sách trong file crawl-users/users.txt. Sau đó với mỗi người thu thu thập tất cả rating của họ có, lưu trong các file crawl-ratings/ratingsxxx-yyy.csv Có cả các file crawler kèm theo, viết bằng Golang.

Bạn xem qua và có góp ý gì thì cho chúng mình biết nhé Thân

nguyen-quang-phu commented 4 years ago

Chào bạn, mình có thắc mắc là:

lehoanganh298 commented 4 years ago

Chào bạn, về các thắc mắc của bạn: