minhq460 / ProjectFront-end_Group17

Project Font-end nhóm 17
0 stars 1 forks source link

Tìm hiểu Crawl dữ liệu #28

Open troisang2404 opened 3 years ago

troisang2404 commented 3 years ago

Phân công công việc: Trung: Tìm hiểu cách crawl data từ 1 trang web, làm chức năng đăng kí, đăng nhập Quân: Tìm hiểu cách crawl data từ 1 trang web Nhật: convert desciption từ rss

Deadline: 23h59 ngày 20/07/2021

Từ khoá cho mọi người cùng tìm hiểu crawl data từ 1 trang web: puppeteer/playwright hoặc cheerio

trung9266 commented 2 years ago

Tool crawl data (sử dụng puppeteer) từ trang thanh niên đã có thể lấy data về nhưng do các thẻ div trong chi tiết của từng bài báo không có sự thống nhất nên có thể lấy được tiêu đề và class .sapo (Mô tả bài báo) các thành phần div khác bị xung đột do từng bài báo có số lượng thẻ div khác nhau và không có tên class của thẻ div nên phần text trong thẻ đó chỉ có thể lấy được một số bài có sự trùng hợp với nhau về mặt chi tiết của thẻ div. Untitled

trung9266 commented 2 years ago

Đã hoàn thành chức năng đăng ký đăng nhập

trung9266 commented 2 years ago

Đã fix được lỗi crawl data về

troisang2404 commented 2 years ago

Hoàn thành, nhưng chỉ convert description từ xml, còn json thì chưa làm được. Còn thời gian sẽ làm sau

trung9266 commented 2 years ago

Đã hoàn thành code crawl data từ thanhnien.vn và các trang trong menu và lưu thông tin chi tiết bài báo về file data.json

image