현재 자연어 처리 모델의 크기는 계속 증가하는 추세이다. 모델의 크기가 증가함에 따라 실제 서비스에서 다양한 최적화 기술들의 필요성이 대두되고 있다. 대표적인 모델 최적화 기술들 중 하나로 quantization이 있으며, 이는 실제 서비스에서의 임베디드 및 모바일 배포를 위해 자주 사용된다.
Quantization에 동일한 자료형을 사용할 지라도 그 활용 방법에 따라 symmetric과 asymetric으로 나뉘며, 자료형의 선택 기준에 따라 다시 single-precision과 mixed-precision으로 나뉜다. 프로젝트 목표는 다음 사항들이 모델의 성능에 어떤 영향을 미치는지 분석하는 것이다.
주요 목표
Layer 별로 다른 자료형을 적용
예시) 첫 번째와 마지막 layer는 INT8을 사용하고, 나머지 layer에서는 INT4를 사용하여 양자화
Layer 내에서, channel 별로 다른 자료형을 적용
특정 convolutional layer 내에서 output channel 별로 다른 자료형을 사용하여 양자화
Signed/Unsigned 자료형의 응용
양자화 된 모델에서 0 값을 어떻게 활용할 것인가를 결정
(해당 내용은 교육을 통해 의미 파악 가능)
과제 진행 일정
2022 여름 방학
팀 구성, 주제 선정, 지도 교수 컨택
수강신청
2022 2학기
제안서 제출(9월)
각 지도 교수 지도 아래 졸업프로젝트 진행(1차 평가 전까지)
2022 겨울 방학
수강신청
2023 1학기
졸업프로젝트 1차평가(지도 교수 개별 평가)(4월말)
졸업프로젝트 2차평가 (1차평가에서 하위작을 받았을 경우)(5월)
상위작 발표회(2학기 시작 해당사항 없음)
결과보고서 제출(1차평가 통과자 5월, 2차평가 통과자 6월)
자연어 처리 언어모델(BERT, T5)의 양자화를 통한 추론성능 개선
2022-2 ~ 2023-1 한양대학교 컴퓨터소프트웨어학부 졸업 프로젝트
지도교수: 서지원
팀원: 이성진, 조한빛, 황태경
프로젝트 개요
주요 목표
과제 진행 일정