[20210718] Weekly AI ArXiv 만담 #17

jungwoo-ha commented 2 years ago
Kyung-Min commented 2 years ago


ghlee3401 commented 2 years ago


hollobit commented 2 years ago

DeepMind’s AI for protein structure is coming to the masses (Nature)

Highly accurate protein structure prediction with AlphaFold (Nature)

Evaluating Large Language Models Trained on Code


Austin commits to $1.5B for DOD’s Joint AI Center over next 5 years

중동 지역은 차세대 AI 허브가 될 수 있을 것인가

인공지능 시대 사기의 아이콘 된 AI 투자

중국 인공지능 특허량 세계 1위

veritas9872 commented 2 years ago

What Classifiers Don't Know What They Don't? https://arxiv.org/abs/2107.06217 https://github.com/facebookresearch/uimnet

Facebook에서 Model Uncertainty 및 Calibration에 대해 다양한 방법을 비교한 실험 논문입니다. 아직 GitHub는 공란이고 대표할만한 그림이 없는 것이 단점입니다.

ImageNot Dataset이라는 ImageNet을 ResNet18의 feature를 기준으로 OOD로 나눈 데이터셋을 구별하고 in-distribution과 out-of-distribution data에 대해 최근 제시된 다양한 방법들을 비교합니다. 결론은 하나의 모델에서 multi-input multi-output 방식의 TTA를 진행하거나 여러 calibrated된 model을 ensemble (bagging)하는 방법을 사용하는 것을 권장하는 내용입니다.

Passive attention in artificial neural networks predicts human visual selectivity https://arxiv.org/abs/2107.07013 image

Deep Mind에서 CAM 등 soft-attention 방법들과 실제 인간의 시각 등 확인하는 영역이 일치하는지 실험적으로 확인하는 심리학과와의 협업 논문입니다. Deep Learning Theory 보다는 인간의 attention과 Deep Learning의 attention이 일치하는지 확인하는 논문입니다.

Per-Pixel Classification is Not All You Need for Semantic Segmentation https://arxiv.org/abs/2107.06278 image

Facebook 에서 pixel-level classification이 아닌 mask prediction을 기존 architecture에 바로 사용할 수 있도록 구현한 새로운 방법론입니다. Segmentation 을 하시는 분들께 도우이 될 것 같아 공유드립니다. Facebook에 의하면 현재 ADE20K에서 SOTA라고 합니다.

Revisiting the Calibration of Modern Neural Networks https://arxiv.org/abs/2106.07998 https://github.com/google-research/robustness_metrics/tree/master/robustness_metrics/projects/revisiting_calibration image Google에서 MLP-Mixer, ViT 등 최신 architecture에서는 CNN과는 달리 miscalibration issue가 발생하지 않는다는 실험 논문입니다. Miscalibration에 대해 문제가 많은 경우 참조할 수 있는 논문으로 생각됩니다.

Fully Sharded Data Parallel: faster AI training with fewer GPUs https://engineering.fb.com/2021/07/15/open-source/fsdp/ Facebook Engineering에서 Multi-GPU를 latency issue 없이 model 변형 없이 학습을 원활히 진행할 수 있는 FSDP라이브러리를 공개했습니다. PyTorch Lightning에서 1.4부터 사용할 수 있는 것으로 알고 있습니다. DeepSpeed와 유사하지만 PyTorch와 호환이 더 좋을 것으로 생각됩니다.

jwlee-ml commented 2 years ago


  • Transfer-Meta Framework for Cross-domain Recommendation to Cold-Start Users

    • Cross-domain Recommendation을 하는 기존 방식은 source/target domain의 overlapping users에 대해 두 도메인들에서 계산된 임베딩을 가까이해주는 함수 f를 학습하는 것이었음 f(emb(user_s)) <-> emb(user_t)
    • 이 경우 함수 f는 overlapping users에 대해서 biased 되기 쉽다는 문제가 생김
    • 그래서 transfer-meta framework를 제안
    • transfer stage에서는 overlapping user 외에 모든 source/target domain users를 pre-train하자는 내용
    • meta stage에서는 함수 f를 계산할 때 gradient를 overlapping user의 source/target domain에서 embedding 오차로부터 계산하지 않고, 실제 target domain의 cold user들에 대해 발생하는 downstream task loss로부터 계산하자는 내용 (MAML style)
  • Tabular Data: Deep Learning is Not All You Need

    • 정글의 세계와 같은 real-world structured data에 대해 딥러닝 모델들이 얼마나 잘하고 있는지 평가 (물론 이보다 더 한 야생의 세계는 많이 있긴하지만)
    • Tabular data를 다루기 위해 여러가지 deep learning methods가 제안되었지만, 논문에 사용된 것 외 다른 데이터셋에 테스트해보면 베이스라인 (XGBoost) 보다 못하다.
    • 실험에서는 캐글에 공개된 11개 데이터셋에 대해 4개 딥모델과 XGBoost 성능을 비교
    • 물론 모든 모델에 대해 HPO를 수행
    • XGBoost와 deep models를 ensemble하면 best 성능을 낼 수 있었다.
    • mse 성능비교표
    • image
  • Learning to Embed Categorical Features without Embedding Tables for Recommendation

    • 추천시스템에서 user/item id feature를 쓰면 크기가 매우 큰 임베딩 look-up 테이블을 만들어야함 -> 매우 큰 메모리 필요
    • 이를 해결하기 위해 여러개 (∼1000)의 hash function을 사용하여 initial id를 임베딩해주고, learnable한 Neural Net layer로 여러번 transformation해주는 Deep Hash Embedding 제안
    • Wide & shallow emb (기존 one-hot encoding) <-> deep emb (proposed)
    • Generalization ability를 높이기 위해서 side information도 활용
    • image
  • What does BERT know about books, movies and music? Probing BERT for Conversational Recommendation

    • Pretrained language model (PLM)을 추천모델에 접목시키고자 했던 첫번째 논문
    • BERT를 Wiki, BookCorpus 등으로 학습시키고 finetuning하지 않았을 때, 기본적으로 책,영화, 그리고 음악에 대해서 얼마나 잘 알고 있는지 테스트 (probing)
    • Content-based와 collaborative-based 두 가지 측면에서 PLM을 테스트했을 때 content-based type 문제를 더 잘 풀 수 있었음
    • 더 나아가서 PLM을 사용해서 conversational recommender system을 다운스트림 태스크로 풀었을 때 성능을 올릴 수 있는 방법으로 multi-task learning 제안


  • DeepMind에서 protein의3D structure를 에측할 수 있는 AlphaFold v2 코드 공개

Regularization is all you Need: Simple Neural Nets can Excel on Tabular

좀 다른 의견의 논문인데 요것도 흥미있어 보입니다.

jungwoo-ha commented 2 years ago

AutoGluon: https://auto.gluon.ai/stable/index.html

veritas9872 commented 2 years ago

AutoGluon Tabular 논문: https://arxiv.org/abs/2003.06505

nick-jhlee commented 2 years ago

The Benchmark Lottery

Clyde21c commented 2 years ago

Conservative Objective Models for Effective Offline Model-Based Optimization ICML 21 2021_07_18_21_54_01_751 image

veritas9872 commented 2 years ago

LabML AI 링크 공유해드립니다. https://papers.labml.ai/papers/daily Arxiv Sanity와 유사하지만 웹사이트가 훨씬 안정적입니다.