Closed yeseoLee closed 1 week ago
prompt = (
f"다음 문장은 원본 문장에서 일부 문자가 의도적으로 추가된 노이즈가 포함된 한국어 뉴스기사 제목입니다. "
f"원본 문장을 정확히 추측하여 노이즈가 없고 뉴스기사 제목과 유사한 형태로 복원해 주세요. "
f"오직 원본 문장만 반환해 주세요. "
f"다음은 노이즈가 제거된 원본 뉴스기사 제목입니다:를 답변에 포함하지 말아주세요."
f"노이즈 예시: 알파벳, 숫자, 특수 기호 등이 임의로 삽입되어 있습니다. "
f"{original_text}"
)
messages = [
{"role": "system", "content": "You are EXAONE model from LG AI Research, a helpful assistant."},
{"role": "user", "content": prompt}
]
f"""다음은 노이즈가 있는 한국어 뉴스 기사 제목입니다.
주어지는 제목은 원본 문장에서 글자를 골라 랜덤으로 다른 ASCII Code로 바꾸어서 텍스트를 변환했습니다.
바뀐 ASCII CODE의 범위는 32 이상 126 이하이고, 한글에서 한글로 바뀌진 않았습니다.
한글 외의 글자만 복원해주세요.
이를 원래의 정확한 한국어 제목으로 복원해주세요.
노이즈 있는 제목: 한#@두산 ,고*3천d6J일 만의 ~W 2위…SK는 pq패
복원된 제목: 한화 두산 꺾고 3천661일 만의 단독 2위…SK는 6연패
노이즈 있는 제목: 듀얼i 아이폰 하/기A출시설 솔솔 e뜰폰!u대감
복원된 제목: 듀얼심 아이폰 하반기 출시설 솔솔 알뜰폰 기대감
노이즈 있는 제목: 버닝썬 게이트@다룬#SBS 그@이 j] 싶E
복원된 제목: 버닝썬 게이트 다룬 SBS 그것이 알고 싶다
위는 참고할 예시입니다. 이를 바탕으로 복원해주세요.
복원된 제목만 대답해주세요.
노이즈 있는 제목: {noisy_headline}
복원된 제목:"""
prompt = f"""다음은 정상적인 기사 제목에서 임의로 영어,특수문자,숫자로 치환되거나, 임의로 글자가 삭제되거나, 무의미한 문자(영어,특수문자,숫자)가 임의로 삽입된 노이즈가 있는 한국어 뉴스 기사 제목입니다.
이 뉴스 기사 제목을 원래 제목으로 복원할 것입니다.
복원시킬 때 지켜야하는 사항은 다음과 같습니다.
1. 제목 중 한국어로 온전하게 토큰화되는 단어가 있다면, 그 토큰은 그대로 사용합니다.
2. 온전한 토큰이란, 한국어로 구성된 토큰이면서, #이 붙지 않는 토큰을 의미합니다.
3. 원래 제목으로 복원할 때, 한국어로 온전하게 토큰화된 토큰을 적극적으로 활용해서 복원합니다.
4. 제목 중 한국어로 온전하게 토큰화되지 않는 단어가 있다면, 그 문장은 복구할 수 없는 데이터로 간주하고, 제거합니다. 제거한 데이터는 ??로 대체합니다.
5. 제목 중 한국어로 온전하게 토큰화되는 단어가 4개 이상일 경우, 해당 문장은 노이즈가 없는 데이터로 간주하고, 복원대상에서 제외합니다.
복원된 제목만 대답하세요.
예시는 아래와 같습니다.
노이즈 있는 제목 : ip* 한국사이버[제 U분기 영업익uX0u원?!..G$ 감소
복원된 제목 : ipo 한국사이버 제 3분기 영업이익 100억원 감소
노이즈 있는 제목 : K^한국관광공사X업무Y@업체결=
복원된 제목 : 한국관광공사 업무 계약 체결
노이즈 있는 제목 : 2019년도제1 외국인투자정책회의
복원된 제목 : 2019년 제1회 외국인투자 정책회의
노이즈 있는 제목 : rR=드러 앞 신태h!t'x^G@리포트<# f^-
복원된 제목 : ??
노이즈 있는 제목 : {noisy_headline}
복원된 제목:
"""
prompt = """다음은 아스키코드가 치환되는 방식으로 많은 노이즈가 있는 한국어 뉴스 기사 제목입니다.
노이즈가 들어가지 않은 한글부분을 참고하여 원래의 정확한 한국어 제목으로 복원해주세요.
앞뒤에 설명 붙이지 말고, 반드시 복원된 제목만 대답하세요.
아래의 예시는 동일한 주제의 복원된 뉴스기사 제목입니다.
예시를 참고하여 예시와 반드시 동일한 주제로 복원하세요.
입력된 제목보다 짧지 않도록 생성하세요.
"""
prompt += sample_list
prompt += f"""입력된 제목: {noisy_text}
복원된 제목:"""
이때 sample_list는 같은 라벨의 원본문장-임의 노이즈 문장쌍 3개 *임의 노이즈 : 전체 텍스트중 임의노이즈 치환확률 50% ; 치환될 시 93%의 확률로 ASCII 범위 내 특수 문자, 대소문자, 숫자선택, 7%의 확률로 한자 유니코드 범위선택하여 교체
PR 정보
변경 사항
리뷰 참고사항
close #53