jungwoo-ha / WeeklyArxivTalk

[Zoom & Facebook Live] Weekly AI Arxiv 시즌2
973 stars 41 forks source link

[20210718] Weekly AI ArXiv 만담 #17

Closed jungwoo-ha closed 3 years ago

jungwoo-ha commented 3 years ago
Kyung-Min commented 3 years ago

Papers

ghlee3401 commented 3 years ago

Paper

hollobit commented 3 years ago

DeepMind’s AI for protein structure is coming to the masses (Nature)

Highly accurate protein structure prediction with AlphaFold (Nature)

Evaluating Large Language Models Trained on Code

IS GPT-3 OVERHYPED?

Austin commits to $1.5B for DOD’s Joint AI Center over next 5 years

중동 지역은 차세대 AI 허브가 될 수 있을 것인가

인공지능 시대 사기의 아이콘 된 AI 투자

중국 인공지능 특허량 세계 1위

veritas9872 commented 3 years ago

What Classifiers Don't Know What They Don't? https://arxiv.org/abs/2107.06217 https://github.com/facebookresearch/uimnet

Facebook에서 Model Uncertainty 및 Calibration에 대해 다양한 방법을 비교한 실험 논문입니다. 아직 GitHub는 공란이고 대표할만한 그림이 없는 것이 단점입니다.

ImageNot Dataset이라는 ImageNet을 ResNet18의 feature를 기준으로 OOD로 나눈 데이터셋을 구별하고 in-distribution과 out-of-distribution data에 대해 최근 제시된 다양한 방법들을 비교합니다. 결론은 하나의 모델에서 multi-input multi-output 방식의 TTA를 진행하거나 여러 calibrated된 model을 ensemble (bagging)하는 방법을 사용하는 것을 권장하는 내용입니다.

Passive attention in artificial neural networks predicts human visual selectivity https://arxiv.org/abs/2107.07013 image

Deep Mind에서 CAM 등 soft-attention 방법들과 실제 인간의 시각 등 확인하는 영역이 일치하는지 실험적으로 확인하는 심리학과와의 협업 논문입니다. Deep Learning Theory 보다는 인간의 attention과 Deep Learning의 attention이 일치하는지 확인하는 논문입니다.

Per-Pixel Classification is Not All You Need for Semantic Segmentation https://arxiv.org/abs/2107.06278 image

Facebook 에서 pixel-level classification이 아닌 mask prediction을 기존 architecture에 바로 사용할 수 있도록 구현한 새로운 방법론입니다. Segmentation 을 하시는 분들께 도우이 될 것 같아 공유드립니다. Facebook에 의하면 현재 ADE20K에서 SOTA라고 합니다.

Revisiting the Calibration of Modern Neural Networks https://arxiv.org/abs/2106.07998 https://github.com/google-research/robustness_metrics/tree/master/robustness_metrics/projects/revisiting_calibration image Google에서 MLP-Mixer, ViT 등 최신 architecture에서는 CNN과는 달리 miscalibration issue가 발생하지 않는다는 실험 논문입니다. Miscalibration에 대해 문제가 많은 경우 참조할 수 있는 논문으로 생각됩니다.

Fully Sharded Data Parallel: faster AI training with fewer GPUs https://engineering.fb.com/2021/07/15/open-source/fsdp/ Facebook Engineering에서 Multi-GPU를 latency issue 없이 model 변형 없이 학습을 원활히 진행할 수 있는 FSDP라이브러리를 공개했습니다. PyTorch Lightning에서 1.4부터 사용할 수 있는 것으로 알고 있습니다. DeepSpeed와 유사하지만 PyTorch와 호환이 더 좋을 것으로 생각됩니다.

jwlee-ml commented 3 years ago

Papers

  • Transfer-Meta Framework for Cross-domain Recommendation to Cold-Start Users

    • Cross-domain Recommendation을 하는 기존 방식은 source/target domain의 overlapping users에 대해 두 도메인들에서 계산된 임베딩을 가까이해주는 함수 f를 학습하는 것이었음 f(emb(user_s)) <-> emb(user_t)
    • 이 경우 함수 f는 overlapping users에 대해서 biased 되기 쉽다는 문제가 생김
    • 그래서 transfer-meta framework를 제안
    • transfer stage에서는 overlapping user 외에 모든 source/target domain users를 pre-train하자는 내용
    • meta stage에서는 함수 f를 계산할 때 gradient를 overlapping user의 source/target domain에서 embedding 오차로부터 계산하지 않고, 실제 target domain의 cold user들에 대해 발생하는 downstream task loss로부터 계산하자는 내용 (MAML style)
  • Tabular Data: Deep Learning is Not All You Need

    • 정글의 세계와 같은 real-world structured data에 대해 딥러닝 모델들이 얼마나 잘하고 있는지 평가 (물론 이보다 더 한 야생의 세계는 많이 있긴하지만)
    • Tabular data를 다루기 위해 여러가지 deep learning methods가 제안되었지만, 논문에 사용된 것 외 다른 데이터셋에 테스트해보면 베이스라인 (XGBoost) 보다 못하다.
    • 실험에서는 캐글에 공개된 11개 데이터셋에 대해 4개 딥모델과 XGBoost 성능을 비교
    • 물론 모든 모델에 대해 HPO를 수행
    • XGBoost와 deep models를 ensemble하면 best 성능을 낼 수 있었다.
    • mse 성능비교표
    • image
  • Learning to Embed Categorical Features without Embedding Tables for Recommendation

    • 추천시스템에서 user/item id feature를 쓰면 크기가 매우 큰 임베딩 look-up 테이블을 만들어야함 -> 매우 큰 메모리 필요
    • 이를 해결하기 위해 여러개 (∼1000)의 hash function을 사용하여 initial id를 임베딩해주고, learnable한 Neural Net layer로 여러번 transformation해주는 Deep Hash Embedding 제안
    • Wide & shallow emb (기존 one-hot encoding) <-> deep emb (proposed)
    • Generalization ability를 높이기 위해서 side information도 활용
    • image
  • What does BERT know about books, movies and music? Probing BERT for Conversational Recommendation

    • Pretrained language model (PLM)을 추천모델에 접목시키고자 했던 첫번째 논문
    • BERT를 Wiki, BookCorpus 등으로 학습시키고 finetuning하지 않았을 때, 기본적으로 책,영화, 그리고 음악에 대해서 얼마나 잘 알고 있는지 테스트 (probing)
    • Content-based와 collaborative-based 두 가지 측면에서 PLM을 테스트했을 때 content-based type 문제를 더 잘 풀 수 있었음
    • 더 나아가서 PLM을 사용해서 conversational recommender system을 다운스트림 태스크로 풀었을 때 성능을 올릴 수 있는 방법으로 multi-task learning 제안

News

  • DeepMind에서 protein의3D structure를 에측할 수 있는 AlphaFold v2 코드 공개

Regularization is all you Need: Simple Neural Nets can Excel on Tabular

좀 다른 의견의 논문인데 요것도 흥미있어 보입니다.

jungwoo-ha commented 3 years ago

AutoGluon: https://auto.gluon.ai/stable/index.html

veritas9872 commented 3 years ago

AutoGluon Tabular 논문: https://arxiv.org/abs/2003.06505

nick-jhlee commented 3 years ago

The Benchmark Lottery

Clyde21c commented 3 years ago

Conservative Objective Models for Effective Offline Model-Based Optimization ICML 21 2021_07_18_21_54_01_751 image

veritas9872 commented 3 years ago

LabML AI 링크 공유해드립니다. https://papers.labml.ai/papers/daily Arxiv Sanity와 유사하지만 웹사이트가 훨씬 안정적입니다.