affjljoo3581 / canrevan

대량의 네이버 뉴스 기사를 수집하는 라이브러리입니다.
Apache License 2.0
90 stars 19 forks source link

[Feature] 많은 수의 기사에서 첫 줄이 삭제되고 있습니다. #7

Open jonyejin opened 1 year ago

jonyejin commented 1 year ago

현재 코드에서는 첫 글자가 특수문자가 아니고, 마침표로 끝나는 문장만 정상적인 문장으로 인식합니다. 하지만, 대부분의 기사가 첫 줄이 [방송국 기자명] 이나 <방송국 기자명> 의 형태를 띄고 있습니다. 기사 특성 상 첫 문장이 중요하기 때문에 기사의 전반적인 내용을 요약하는 첫 줄이 없어진다면 데이터의 무결성이 손상됩니다.

PR로 코드 수정 사항을 올릴테니 확인 부탁드립니다!

example

다음 과 같은 기사에서

[아시아경제 이기민 기자] 삼성디스플레이 아산사업장에서 1일 화재가 발생해 공장 가동이 중단됐다. 삼성디스플레이에 따르면 이날 오후 2시20분께 아산사업장 2캠퍼스 A3라인에서 화재가 발생했다. ...

첫 줄이 삭제됩니다.

jonyejin commented 1 year ago

regex: ^((\[.+\]|\(.+\))(\s?([가-힣 ]{2,} (기자|특파원),?)+\s*=?)+|(\[.+\]|\(.+\)))

[서울=뉴시스]이재준 기자 = 올해... [세종=이데일리 이진철 기자] 정세균 [이데일리 김종호 기자] 한국디스플레이연구조합은 [더팩트 | 서재근 기자] (괴산=연합뉴스) 박종국 기자 = 충북 (런던=연합뉴스) 박대한 특파원 = 유럽 최대 (서울=뉴스1) 류정민 기자 = (이천=연합뉴스) 최종호 류수현 기자 = (서울=뉴스1) 김태환 기자,음상준 기자,이영성 기자,이형진 기자 = 정부가 [서울경제] 미국

와 같은 테스트케이스를 잘 처리하고 있습니다.