boostcampaitech5 / level2_klue-nlp-04

level2_klue-nlp-04 created by GitHub Classroom
1 stars 0 forks source link

[Model] 띄어쓰기, 단어 살짝 바꾸기 #38

Closed lig96 closed 1 year ago

lig96 commented 1 year ago

현재 상황과 문제점

            subj, obj = dict(eval(dataset['subject_entity'][i]))['type'], dict(eval(dataset['object_entity'][i]))['type']
            subj = subj.replace("_", " ").lower()
            obj = obj.replace("_", " ").lower()
            subj_token = f"@*{subj}*"
            obj_token = f"#^{obj}^"

현재 load_data.py입니다.

질문1. 첫째줄에 eval은 무슨 용도인가요? eval은 eval(str("1*2")) 이런 거만 알아서....

개선 제안 사항

  1. subj, obj가 person이 아닌 per, organization이 아닌 org로 잡히는 걸로 압니다. map(my_dict, 어쩌고) 씌워서 풀네임으로 바꾸면 아마? 좋아질 것 같습니다.

  2. obj_token = f"#^{obj}^" 에서 중간에 전부 다 띄어쓰기를 넣으면 토크나이저가 인식을 잘 할 것 갓습니다

성능 개선 기대점

언어모델이 언어를 인식을 잘 하게 된다.

dbsrlskfdk commented 1 year ago
  1. eval함수는 코드가 str형식으로 되어있는 것을 코드로 접근할 수 있도록 바꿔주는 함수입니다. subject entityobject entity 컬럼이 dict 형식인데, str으로 표현되어 있어서 접근하기 위해 사용했습니다.
  2. 띄어쓰기는 한번 실험해보셔도 좋을 것 같습니다!
lig96 commented 1 year ago

그럴 듯한 접근 같으니 나중에 시간나면 해보겠습니다. 일단은 backlog에 둘게요.