jungwoo-ha / WeeklyArxivTalk

[Zoom & Facebook Live] Weekly AI Arxiv 시즌2
973 stars 41 forks source link

[20210425] Weekly AI Arxiv 만담 #7

Closed jungwoo-ha closed 3 years ago

jungwoo-ha commented 3 years ago
veritas9872 commented 3 years ago

Training BatchNorm and Only BatchNorm: On the Expressive Power of Random Features in CNNs https://openreview.net/forum?id=vYeQQ29Tbvx 나온지 한 달이 지났지만 지난번에 random projection의 영향과도 관계 있어 올려드립니다. MIT와 Facebook AI에서 나온 ICLR 2021 Paper입니다.

Neural Network 학습에서 다른 모든 parameter를 random intialization 후 fix하고 BatchNorm의 weight와 bias만을 학습하더라도 CIFAR10에서 82% accuracy와 ImageNet에서 32% top-5 accuracy를 얻을 수 있다는 것을 실험적으로 보여준 논문입니다. 기존의 SVM에서 random feature를 사용하는 논문이 NeurIPS 2017년 test of time award를 받았는데 비슷한 원리로 neural network에서도 random projection을 사용하는 것이 생각보다 효과적일 수 있을 것 같습니다.

Sparse Attention with Linear Units https://arxiv.org/abs/2104.07012v1

Transformer에서 attention을 sparse하게 만드는 것이 학습을 보다 원활하게 할 수 있는데 별도의 sparsifying transform 대신 SoftMax를 ReLU로 대체하는 것만으로도 성능 향상을 가져올 수 있다고 주장하는 논문입니다. 실제로 그런지는 확인이 필요할 것 같습니다.

veritas9872 commented 3 years ago

Facebook FlashLight https://ai.facebook.com/blog/flashlight-fast-and-flexible-machine-learning-in-c-plus-plus/

페이스북에서 Flashlight이라는 새로운 C++ 전용 딥러닝 라이브러리를 만들었습니다. PyTorch와 유사한 API를 가지고 있어서 별도의 라이브러리를 만든 이유가 궁금하지만 Python보다 C++을 선호하시는 분들께서 관심이 있을 것 같아 공유드립니다.

Stanford 224W: Machine Learning with Graphs https://youtu.be/JAB_plj2rbA

스탠포드 대학에서 Graph Neural Network 관련 수업 자료를 YouTube에 공개했습니다. Graph Neural Network가 처음 접하신 분들께 쉽지 않을텐데 이 수업은 CS231n만큼 유명해지지 않을까 기대됩니다.

nick-jhlee commented 3 years ago

점점 더 큰 모델이 만들어지고 쓰이는 걸 생각하면, 상당히 중요한 문제인듯 해서 가져와보았습니다....!

Carbon Emissions and Large Network Training Yann Lecun 아저씨가 페북에서 홍보한걸 보고 가져와보았습니다. 근데 하필 구글 paper...

(페북 댓글 중 일부) "If I understand correctly, training a single instance of GPT3 uses ~1300MWh, produces ~500tCO2e . We are speaking about 500 round trip from Paris to New York in term of CO2. We are speaking about the electrical consumption of 60 average french households. Jaw dropping, even though I was already aware of the high "costs" of such big models."

cf. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Google AI Ethics 팀을 날려버린(?) 페이퍼, 여기에도 environmental impact가 언급되어 있어요

jungwoo-ha commented 3 years ago

@veritas9872 이것이 공개된 Timnit Gebru 논문이군요 ㅎㅎ 5월 3일 ICLR invited talk 기대 됩니닷!

nick-jhlee commented 3 years ago
<2021 Naver Search Colloquium> http://naversearchconf.naver.com/ - Learning to Rank - User Modeling, Fairness - eCommerce - Platform - Vision - Language AI 기대돼요...!
jshin49 commented 3 years ago

NAACL 2021 Accepted Paper list 가 공개되어서 몇 가지 가져와봅니다.