dev-taewon-kim commented 3 years ago

현재 크롤러가 영문 기사도 함께 긁어오고 있습니다.
analyzer가 nlptools에 영문 기사 데이터로 요청을 보내면 null이 return 됩니다.
따라서 현재 도커라이징된 analyzer 컨테이너가 죽어버리는 문제가 있습니다.
확인하시는 대로 바로 처리 부탁드립니다.
영문 기사인지 구분하는 가장 쉬운 방법은 제목에 정규식을 돌려서 한글이 포함되어있지 않은 기사는 전부 제외하면 됩니다.

Example Code

import re

korean_text = "블랙핑크 짱짱"
english_text = "Blackpink is the best K-PoP idol"

print(re.search("[가-힣]", korean_text))
print(re.search("[가-힣]", english_text))

Output

<re.Match object; span=(0, 1), match='블'>
None

flydog98 commented 3 years ago

네알겠습니다빨리하겠습니다필승!

flydog98 commented 3 years ago

영어 기사 및 중복 체크 기능 PR 넣었습니다. PR 끝나면 이슈 닫겠습니다!

osamhack2021 / ai_web_RISKOUT_BTS

(긴급) 크롤러 영문 기사 예외 처리 요청 #65

Example Code

Output