Open antasis9 opened 1 month ago
안녕하세요. 허정준입니다. 답변이 너무 늦어져서 죄송합니다.
해당 부분에서 제가 전달드리고 싶었던 핵심 메시지는 "모델을 효율적으로 추론하기 위해서는 배치 크기를 키워야 한다" 였습니다. 그 설명을 위해 GPU에서 연산하는 과정을 단순화 해서 두 가지(모델 이동과 연산)로 나누고
라는 방식으로 전달드렸었습니다.
실제로 GPU에서 연산하는 과정은 모델 이동과 연산 두 가지만 있는 것은 아니고 질문 주신 것처럼 다양한 과정이 포함되어 있을 것이고 저도 그 세부 사항을 깊이 알지는 못합니다. 그래서 "핵심 메시지(큰 그림)를 전달드리기 위한 방편이었고 GPU의 복잡한 연산 과정을 모두 최적화하는 최적의 상태에 대한 설명은 아니다" 라고 이해해주시면 좋을 것 같습니다.
혹시 더 궁금하신 사항 있으면 말씀 부탁드립니다. 감사합니다 :)
답변 감사드립니다 관련해서 정보를 더 찾아보도록 하겠습니다
안녕하세요.
책을 보던 중 7장 관련 질문이 있어 문의 드립니다.
7.1.3 GPU 구조와 최적의 배치 크기 부분을 살펴보고 있는 중입니다. 연산 시간과 HBM -> SRAM 모델 파라미터 이동 시간이 같을 때가 최적이라고 말씀 주신 부분에 대한 질문입니다.
제 생각에는 "SRAM 모델 파라미터 이동 -> 연산" 과정이 병렬로 실행되지 못하고 순차적으로 실행될 것으로 생각되는데, (왜냐하면 연산 과정 중 SRAM의 데이터를 참조하지 않을까 해서...) 이런 경우 파라미터 이동 시간과 연산 시간이 같을 때가 최적이라고 생각해도 좋은지 궁금합니다.
연산 하는 와중에 SRAM 모델 파라미터 이동이 병렬로 수행이 가능하다면 두 시간이 같은 부분이 최적의 점으로 쉽게 이해가 되나, 순차적으로 실행되는 경우라면 조금 이해가 잘 안되는 부분이 있습니다.
좋은 책 잘 보고 있습니다. 위 내용 한번 확인해주시면 감사하겠습니다.