Closed jungwoo-ha closed 3 years ago
대한의료인공지능학회 2021 summer school - 성료
구글 인력·컴퓨팅 없이 알파폴드2 재현한 로제타폴드, 어떻게 가능했나?...연구 주도한 백민경 박사 발표 내용
KAIST, 보건의료 분야 인공지능 활용 가이드 개발
북한, 미국 MIT 데이터로 X레이 AI 분석 기술 개발
What to expect from OpenAI’s Codex API
Watch out, GPT-3, here comes AI21's 'Jurassic' language model
Overcoming the limitations of scanning electron microscopy with AI
AI ethics in the real world: FTC commissioner shows a path toward economic justice
Applying the Information Bottleneck Principle to Prosodic Representation Learning
News
ArXiv
Mobile-Former: Bridging MobileNet and Transformer
MobileNet + Transformer (from MS)
MobileNet 파트 (이미지 입력), Transformer 파트 (random init embedding), 상호 연결파트
크기보다는 연산량에 조금 더 포커싱 (77.9% --> 11.4M, 294M MAdds)
MicroNet: Improving Image Recognition with Extremely Low FLOPs
Resetting the baseline: CT-based COVID-19 diagnosis with Deep Transfer Learning is not as accurate as widely thought
Transfer learing 활용한 CT기반 COVID-19 예측 모델들의 성능평가 교통 정리
논문에 reporting 된 결과들은 매우 overestimated 라고
CCD 데이터에 대해 5 fold cross-validation vs 8:2 training/val separation transfer learning 성능 비교
결국 이러한 과잉성능 평가는 data 문제로 귀결
Data augmentation 은 도움이 된다고 함. (하지만 아주 약한 augmentation만 해봄)
Billion-Scale Pretraining with Vision Transformers for Multi-Task Visual Representations
Pinterest 의 Unifed embedding 을 ViT pretraining with 1.8B 으로 확장 (WACV 2021)
1.8B 학습데이터 구축을 위한 process 포함
Multi-label classification 후 기존 Unfied Visual embedding에 적용
JFT-300M 나 IG-1B 데이터 없이 자체 대규모 데이터로 의미있는 성능
DEMix Layers: Disentangling Domains for Modular Language Modeling
MoE-PLM에서 Transformer block의 FFN 부분을 그냥 유니폼하게 쪼개는 게 아닌 domain 별로 할당. 즉 domain expert
domain은 data의 source로 구분 (annotation overhead X but source에따라 내용이 섞일 수는 있음).
Inference time에 flexible하게 FFN 활용
같은 GPU 연산으로 훨씬 더 큰 모델의 효과를 활용 가능
Managing ML Pipelines: Feature Stores and the Coming Wave of Embedding Ecosystems
ML Pipeline 운영/관리에 관현 전반적인 구조화 설명 (From Stanford U. Applie, Uber AI)
기존 Feature store 와 새로 떠오르는 embedding ecosystem 을 ML pipeline 관점에서 설명
Training data, Featurer / embedding store / downstream system 관점에서 두 시스템을 비교하고 각각의 challenge 들과 일부 이를 해결하기 위한 아이디어 제공
구체적인 method는 없지만 ML pipeline 에 대한 개념잡기와 embedding ecosystem 운영 이해에 도움될 자료