Closed jungwoo-ha closed 2 years ago
- 컴퓨팅 파워, 데이터 및 알고리즘의 발전은 현대 머신 러닝(ML)의 발전을 이끄는 세 가지 기본 요소
- 123개의 역사적인 머신 러닝 시스템들을 선별하고, 이를 훈련하는 데 소요된 계산을 계산하여 분류
- 3개의 트랜드 시기로 구분 : Pre-deep-learning(1952-2010), Deep learning(2010-2022), Large Scale (2015-022)
- ML 시스템 학습에 필요한 계산량이 17-29개월마다 한 번씩 두 배가 였으나, 이후 전반적인 추세가 빨라지고 4-9개월마다 두 배씩으로 증가
- 초기 ML 학습 계산량 증가치는 "트랜지스터 밀도가 2년마다 약 2배가 된다는 무어의 법칙"과 거의 일치했으나, 지금은 그것을 넘어섬
- 이번 연구에서는 계산량에 대해서는 분석, 향후 작업에서 데이터 세트 크기의 추세와 컴퓨팅 추세와의 관계 분석할 것이라고 ...
33년 전(1989년) 딥러닝 기술과 현재, 그리고 앞으로 33년 뒤(2055년)에 대한 전망 내용 33년 전(1989년)과 오늘날의 비교
- 거시적으로는 33년 동안 크게 달라진 것이 없다. MLP와 BP 알고리즘의 확장 모델
- 데이터 세트와 모델 파라미터 크기에서는 큰 차이
- 33년전 웍스테이션에서 3일 걸렸던 모델이, 현재는 일반 노트북에서 90초만에 학습
33년 후(2055년)에 대한 전망
- 2055 신경망은 더 큰 것을 제외하고 기본적으로 거시적 수준에서 2022 신경망과 동일
- 현재의 데이터 세트와 모델 파라미터 크기와 비교해서는 10,000,000배 정도 커질 것으로 전망
- 현재의 최신 GPT-3 모델 정도도, 2055년 노트북에서는 1분 이내 학습시킬 수 있음
- NeurIPS 2021d에서 발표했던 MERLOT:Multimodal Neural Script Knowledge Models의 후속 연구 -https://rowanzellers.com/merlot/
- MERLOT Reserve는 비디오에 대한 질문에 답하기 위한 새로운 모델
- 비디오와 질문이 주어지면 MERLOT Reserve는 객관식 옵션 목록에서 정답을 안정적으로 선택할 수 있음 -MERLOT Reserve는 비디오의 시각적 프레임, 비디오의 자막 및 비디오의 오디오를 공동으로 추론하여 이 예측을 수행 -사람이 라벨을 붙인 데이터 없이도 많은 간단한 비디오 이해 작업을 성공적으로 수행하는 데 사용할 수 있음
- 2천만개 youtube 비디오, 10억 프레임의 데이터셋 활용 (2021년 MERLOT 모델은 6백만개 비디오 데이터)
- 신약 후보물질 개발용 시스템으로 6시간을 돌렸더니 4만개의 새로운 독성 물질 후보를 만들어낼 수 있었다는
- 우리가 AI 신약개발에 대해 고민하고 있지만, 신약개발보다 더 쉽게 독성 무기를 만들어낼 수 있다는 심각한 양면성 이슈
- 이 문제를 어떻게 해결할 것인가 ?
International Congress of Mathematicians (July)
Can Neural Nets Learn the Same Model Twice? Investigating Reproducibility and Double Descent from the Decision Boundary Perspective (CVPR 2022)
Fig 2.
ArXiv
HyperMixer: An MLP-based Green AI Alternative to Transformers
Transformer 의 O(L^2) 문제 해결을 위해 MLP-Mixer 의 token mixing
MLP weight를 generation 하는 Hypernetwork 구조 (이거 잘 안되는데...)
그래서 variable length input에 대한 처리 가능
다양한 NLU task에서 정확도 유지하면서 계산량 이점을 취함 (Transformer 보다 낫고 MLP-Mixer나 gMLP 보다 나은듯)
cosFormer: Rethinking Softmax in Attention
SenseTime 에서 나온 Performer 류의 Kernel trick을 이용한 O(N) softmax approx. Transformer (ICLR 2022)
non-negative kernel (이라고 해도 $PI$ 대신 ReLU 쓴다는), cosine-based reweighting trick
NLU task와 Long-range arena에서 상당히 매력적인 성능을 보여줌.
참고로 전 수식 많은 논문이 싫어요...
https://github.com/OpenNLPLab/cosFormer
기타 흥미있는 연구
Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
OCR 패키지 from OpenMMLab
SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities
Bamboo: Building Mega-Scale Vision Dataset Continually with Human-Machine Synergy