Closed lig96 closed 1 year ago
subj, obj = dict(eval(dataset['subject_entity'][i]))['type'], dict(eval(dataset['object_entity'][i]))['type'] subj = subj.replace("_", " ").lower() obj = obj.replace("_", " ").lower() subj_token = f"@*{subj}*" obj_token = f"#^{obj}^"
현재 load_data.py입니다.
질문1. 첫째줄에 eval은 무슨 용도인가요? eval은 eval(str("1*2")) 이런 거만 알아서....
subj, obj가 person이 아닌 per, organization이 아닌 org로 잡히는 걸로 압니다. map(my_dict, 어쩌고) 씌워서 풀네임으로 바꾸면 아마? 좋아질 것 같습니다.
obj_token = f"#^{obj}^" 에서 중간에 전부 다 띄어쓰기를 넣으면 토크나이저가 인식을 잘 할 것 갓습니다
언어모델이 언어를 인식을 잘 하게 된다.
subject entity
object entity
그럴 듯한 접근 같으니 나중에 시간나면 해보겠습니다. 일단은 backlog에 둘게요.
현재 상황과 문제점
현재 load_data.py입니다.
질문1. 첫째줄에 eval은 무슨 용도인가요? eval은 eval(str("1*2")) 이런 거만 알아서....
개선 제안 사항
subj, obj가 person이 아닌 per, organization이 아닌 org로 잡히는 걸로 압니다. map(my_dict, 어쩌고) 씌워서 풀네임으로 바꾸면 아마? 좋아질 것 같습니다.
obj_token = f"#^{obj}^" 에서 중간에 전부 다 띄어쓰기를 넣으면 토크나이저가 인식을 잘 할 것 갓습니다
성능 개선 기대점
언어모델이 언어를 인식을 잘 하게 된다.