AI-Text 필터링을 위해 거대 모델을 사용한 과정

LINE Engineering Tech Blog

https://engineering.linecorp.com/ko/blog/apply-large-ml-models-for-ai-text-filtering-models

public pre-training모델 중 하나를 선택하고
- 어떤 모델의 성능이 제일 좋은지 찾아야하며
- 적용하고자 하는 작업에서도 성능이 좋은지 찾는 과정에서 비용이 많이 발생한다.
훈련 설정 파일을 정의해서 쉽게 진행가능하도록 한다.
fine-tuning 단계에서 작업의 특징에 맞게 훈련시켜야한다.
- 병렬화 여부
- 모델 파라미터를 부동 소수점 32에서 16으로 줄여서 훈련하는데 성능이 떨어질 수 있다. ( model optimize )
  - 이를 막기위해 loss scaling 기법을 추가해서 모델 크기를 더 줄일 수 있다.
기업에서 훈련에 사용한 데이터는 약 73만개

우와

파라미터 수를 급격하게 늘려 단일 언어 모델을 다국어 모델로 확장해서 개발과 서비스에 들어가는 비용을 줄였다고한다. 파라미터 수를 늘린다는 것은 실행 비용은 증가하게 될텐데 이때 trade off에 대해 어떻게 결론을 내리게 되는지 궁금하다.

거대 모델을 다룰 수 있는 기술은 크게 스케일링Scaling 기술과 경량화Lightwegith 기술로 나뉜다.

Data Parallelism 데이터 병렬화 기술
- 여러 데이터를 동시에 각 GPU에 있는 모델에서 학습한다.
  
  이때 GPU 종류(ex. V100)은 같아야하는건가? 그럼 각 GPU에서 모델의 학습된 파라미터 값이 다를텐데.. 아 서로 다른 모델을 앙상블하는 느낌..인가
- 여러 데이터를 병렬로 학습하기 때문에 학습 속도가 빠르다 .
Model Parallelism 모델 병렬화 기술
- Infra Operator 병렬화 기술 : 한 레이어의 모델 파라미터를 나눠서 각 지표를 병렬로 훈련시키는 기술
  - 쪼개져 있는 레이어의 파라미터를 All Reduce라는 GPU통신을 이용해서 모델 결과를 출력한다.
CPU offload
- 모델 파라미터를 CPU공간으로 옮겨놓았다가 필요할 때 GPU공간으로 옮겨서 훈련시키는 방법

프레임워크 설정을 위해 라이브러리 의존성 파악
- DeepSpeed의 경우 CPU offload 를 위해 OS시스템 라이브러리도 깊게 확인이 필요하다.
Multi-Node
- 멀티 노드를 구성할 때 가속 파일을 공유해야하는 문제가 발생한다.
- GPU 가속화를 위한 CUDA 익스텐션 파일이 필요하며 이때 라이브러리 버전을 맞춰야한다.
  - G++/C++ 컴파일러와 DeepSpeed프레임워크, Ninja빌드 시스템의 라이브러리 버전
    
    OS 수준에서 라이브러리를 설정하고, 프레임워크를 설정하고, 멀티노드를 구성하기 위한 라이브러리를 설정하는 것으로 해결했다고 나온다.
프레임워크가 작동되는 환경을 만든 뒤 Docker 이미지로 만들어서 설정 절차를 문서로 만드는 것이 중요하다.

일반적으로 공개된 사전 학습모델은 병렬화 코드가 구현되어있지 않은 경우가 많다.
Converting 알고리즘을 만들어 해결한 과정을 기술 블로그에서 다룬다.
- 공개 사전 학습 모델의 코드를 병렬화할 수 있게 구현한다.
  - 모델의 어떤 부분을 병렬화할 것인지 분석한다.
    
    어느 부분을 병렬화하느냐에 따라 성능차이와 훈련 속도가 차이나므로 병렬화 코드 설계가 중요하다
  - 모델 수렴..
- 병렬화할 수 있게 된 모델 코드에 맞게 모델을 로드하기 위해 파라미터를 자동으로 파티셔닝한다.
성능 튜닝을 진행할 수 있도록 알고리즘을 구현한다.
- 레이블 간 상관관계를 반영할 수 있도록 설계하고
- Global Correlation Embedding Layer(전체 레이블 간 어떤 관계가 있는지 파악하는 레이어)를 사용해서 각 레이블을 예측할 때 이전 레이블과 상관관계를 학습시킬 수 있도록 구현

데이터 레이블에 따른 분포를 보았을 때 불균형하다면 ( 실제 도메인에서 이런 경우가 일반적이다. )
- 레이블 구성이 불균형할 때 성능을 측정할 수 있는 F1 Score 사용
모델의 정확도를 확인할 수 있는 AUC Score
모델의 정성 평가