trongtuyen99 / viet_summarizer

Tóm tắt văn bản tiếng việt sử dụng machine learning, textrank
2 stars 0 forks source link

Crawl_soha #2

Open khanhvy02 opened 9 months ago

khanhvy02 commented 9 months ago

Mình chào bạn. Bạn ơi, bạn chỉ mình cách chạy file crawl soha với được không ạ. Mình chạy mà không được🥺

trongtuyen99 commented 9 months ago

Chào Vy @khanhvy02 , bạn thử làm theo 2 bước sau nhé:

  1. Sửa lại file new_link.txt (chứa những link sử dụng để khởi tạo bắt đầu crawl) thành các link bài viết trang 24h.com có thể truy cập được, ở các chủ đề khác nhau (vì hiện tại link trong file này đều ko truy cập được.
  2. Thêm 2 dòng sau vào file settings.py USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0' headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0'} Vì 24h.com hiện đang chặn crawl.
khanhvy02 commented 9 months ago

Ui mình cảm ơn bạn @trongtuyen99 vì đã trả lời lại bình luận của mình. Thật sự cảm ơn bạn rất nhiều. Do mình tưởng bạn crawl trang Soha, nhưng trong file code lại có cả của trang 24h nên lúc đầu mình hơi rối một xíu. Trước đây, mình cũng chưa thử pp crawl bằng scrapy bao giờ nên có phần không biết 😭.

khanhvy02 commented 9 months ago

Chào bạn, mình đã gửi Connect qua bên LinkedIn cho bạn rồi ạ

trongtuyen99 commented 9 months ago

gửi mình linkedIn bạn mình gửi connect, mình đang ko thấy invitation @khanhvy02