Open jonyejin opened 1 year ago
regex: ^((\[.+\]|\(.+\))(\s?([가-힣 ]{2,} (기자|특파원),?)+\s*=?)+|(\[.+\]|\(.+\)))
[서울=뉴시스]이재준 기자 = 올해... [세종=이데일리 이진철 기자] 정세균 [이데일리 김종호 기자] 한국디스플레이연구조합은 [더팩트 | 서재근 기자] (괴산=연합뉴스) 박종국 기자 = 충북 (런던=연합뉴스) 박대한 특파원 = 유럽 최대 (서울=뉴스1) 류정민 기자 = (이천=연합뉴스) 최종호 류수현 기자 = (서울=뉴스1) 김태환 기자,음상준 기자,이영성 기자,이형진 기자 = 정부가 [서울경제] 미국
와 같은 테스트케이스를 잘 처리하고 있습니다.
현재 코드에서는 첫 글자가 특수문자가 아니고, 마침표로 끝나는 문장만 정상적인 문장으로 인식합니다. 하지만, 대부분의 기사가 첫 줄이 [방송국 기자명] 이나 <방송국 기자명> 의 형태를 띄고 있습니다. 기사 특성 상 첫 문장이 중요하기 때문에 기사의 전반적인 내용을 요약하는 첫 줄이 없어진다면 데이터의 무결성이 손상됩니다.
PR로 코드 수정 사항을 올릴테니 확인 부탁드립니다!
example
다음 과 같은 기사에서
첫 줄이 삭제됩니다.