analyzer가 nlptools에 영문 기사 데이터로 요청을 보내면 null이 return 됩니다.
따라서 현재 도커라이징된 analyzer 컨테이너가 죽어버리는 문제가 있습니다.
확인하시는 대로 바로 처리 부탁드립니다.
영문 기사인지 구분하는 가장 쉬운 방법은 제목에 정규식을 돌려서 한글이 포함되어있지 않은 기사는 전부 제외하면 됩니다.
Example Code
import re
korean_text = "블랙핑크 짱짱"
english_text = "Blackpink is the best K-PoP idol"
print(re.search("[가-힣]", korean_text))
print(re.search("[가-힣]", english_text))
현재 크롤러가 영문 기사도 함께 긁어오고 있습니다.
analyzer가 nlptools에 영문 기사 데이터로 요청을 보내면 null이 return 됩니다.
따라서 현재 도커라이징된 analyzer 컨테이너가 죽어버리는 문제가 있습니다.
확인하시는 대로 바로 처리 부탁드립니다.
영문 기사인지 구분하는 가장 쉬운 방법은 제목에 정규식을 돌려서 한글이 포함되어있지 않은 기사는 전부 제외하면 됩니다.
Example Code
Output