YeonwooSung / MLOps

Miscellaneous codes and writings for MLOps
GNU General Public License v3.0
7 stars 0 forks source link

How Meta trains large language models at scale #106

Open YeonwooSung opened 1 week ago

YeonwooSung commented 1 week ago

meta engineering blog post

Challenges of training large-scale models

Improving all layers of the infrastructure stack is critical

Training software

Scheduling

Hardware

Data Center Placement

Reliability

Network

Storage

Looking ahead

YeonwooSung commented 1 week ago

대규모 모델 훈련의 도전 과제

인프라 스택의 모든 계층을 개선하는 것이 중요함

훈련 소프트웨어

스케줄링

하드웨어

데이터 센터 배치

신뢰성

네트워크

스토리지

향후 전망