Open troisang2404 opened 3 years ago
Tool crawl data (sử dụng puppeteer) từ trang thanh niên đã có thể lấy data về nhưng do các thẻ div trong chi tiết của từng bài báo không có sự thống nhất nên có thể lấy được tiêu đề và class .sapo (Mô tả bài báo) các thành phần div khác bị xung đột do từng bài báo có số lượng thẻ div khác nhau và không có tên class của thẻ div nên phần text trong thẻ đó chỉ có thể lấy được một số bài có sự trùng hợp với nhau về mặt chi tiết của thẻ div.
Đã hoàn thành chức năng đăng ký đăng nhập
Đã fix được lỗi crawl data về
Hoàn thành, nhưng chỉ convert description từ xml, còn json thì chưa làm được. Còn thời gian sẽ làm sau
Đã hoàn thành code crawl data từ thanhnien.vn và các trang trong menu và lưu thông tin chi tiết bài báo về file data.json
Phân công công việc: Trung: Tìm hiểu cách crawl data từ 1 trang web, làm chức năng đăng kí, đăng nhập Quân: Tìm hiểu cách crawl data từ 1 trang web Nhật: convert desciption từ rss
Deadline: 23h59 ngày 20/07/2021
Từ khoá cho mọi người cùng tìm hiểu crawl data từ 1 trang web: puppeteer/playwright hoặc cheerio