nmcntt2-cntn2016 / project1-new-team

project1-new-team created by GitHub Classroom
0 stars 1 forks source link

Ý tưởng businuess và phương pháp kỹ thuật - Lấy nội dung trang web #5

Open baosws opened 7 years ago

baosws commented 7 years ago

"-Website sẽ tự động hàng ngày duyệt hết các trang tin trên, duyệt hết các tin đăng trong thời gian gần đây (trong vòng 1 tuần), và sẽ lấy 10% tin có số lượt xem nhiều nhất của mỗi trang web và tải về máy." Duyệt như thế nào? (Gỉa sử duyệt được thì mỗi trang cũng có cách duyệt khác nhau, vậy làm sao cho nhanh?) Có được quyền duyệt?

lehoanganh298 commented 7 years ago

Duyệt tin ở giai đoạn này là duyệt sơ lược, ko duyệt từng từ trong mỗi tin, mà chỉ là lần lượt truy cập vào từng website, rồi xem những tin mới ra, chỉ xem các thông số như số lượt người xem của tin,.. rồi tải về hệ thống. Còn việc duyệt từng từ, phân tích, phận loại chi tiết mỗi tin thì làm ở bước sau, khi đã tải tin về hệ thống rồi. Còn việc có quyền duyệt hay không thì mình nghĩ đơn giản nó duyệt giống một người sử dụng trang web bình thường, thường xuyên lên cập nhật tin mới, chỉ có khác là đây làm tự động bằng máy tính thôi, nên mình nghĩ chắc ok. Còn cách duyệt mỗi trang mỗi khác duyệt sao cho nhanh thì chưa nghĩ ra. Mà mình có sử dụng vài extension trên chrome, nó tự động thông những tin mới trên các trang mình muốn, nên mình nghxi là cái đó làm đc