jungwoo-ha / WeeklyArxivTalk

[Zoom & Facebook Live] Weekly AI Arxiv 시즌2
972 stars 41 forks source link

[20210404] Weekly Arxiv 만담 #4

Closed jungwoo-ha closed 3 years ago

jungwoo-ha commented 3 years ago
veritas9872 commented 3 years ago

Efficient Linear Transformers with Kernel Methods:

Rethinking Attention with Performers: Paper: https://openreview.net/forum?id=Ua6zuk0WRH GitHub: https://github.com/google-research/google-research/tree/master/performer/fast_attention Blog: https://ai.googleblog.com/2020/10/rethinking-attention-with-performers.html PyTorch Implementation (HuggingFace): https://github.com/norabelrose/transformers-plus-performers/blob/master/src/transformers/modeling_performer_attention.py

Random Feature Attention: Paper: https://openreview.net/forum?id=QtTKTdVrFBB

ICLR 2021에서 Kernel method을 사용해 self-attention의 O(N^2)을 O(N)으로 바꾸고자 하는 논문 2개가 oral session과 spotlight paper로 선정되었습니다. 구글과 딥마인드에서 나온 연구인데 softmax를 직접 연산하는 대신 kernel(SVM에서의 kernel과 동일한 kernel입니다)을 통해서 attention을 연산합니다.

Transformer의 가장 큰 문제점 중 하나인 quadratic growth를 해결할 수 있는 방법론으로 앞으로 많은 발전을 이룰 것을 예상합니다.

tteon commented 3 years ago

Unsupervised Hyperbolic Representation Learning via Message Passing Auto-Encoders

paper ; https://arxiv.org/pdf/2103.16046.pdf github ; https://github.com/junhocho/HGCAE

기존 Euclidean space 에서 진행하였던 embedding 과 본 논문 저자가 주장하는 hyperbolic 에서 진행한 embedding 방법론을 비교하고자 link prediction , node clustering task 를 통해 우수함을 보임.

Question; Table 2에서 보인 link prediction performance 에서 Pubmed (bio) dataset 은 오히려 comparison 중 하나인 DBGAN이 더 우수하였습니다. 기존 분자 구조들은 3차원이라 hyperbolic space에서 좀 더 좋은 performance가 나올것이라 기대되었으나 그렇지않았는데 DBGAN paper을 읽어보며 왜 그러한 결과가 나왔는가에 탐구해보면 흥미로운 인사이트를 얻을 수 있지 않을까 기대가 됩니다. 혹 인사이트를 얻게 된다면 이 방에 공유토록 하겠습니다. :)

jshin49 commented 3 years ago
jshin49 commented 3 years ago

For next week

jshin49 commented 3 years ago

Poincaré Embeddings for Learning Hierarchical Representations

veritas9872 commented 3 years ago

Steven Boyd 교수님께서 Minimum DIstortion Embedding (MDE)라는 논문 및 라이브러리를 발표하셨습니다. 정보를 효율적으로 압축, 시각화 등을 하는데 t-SNE와 비슷하게 사용할 수 있고 영상 등의 representation을 바꾸는데에도 사용할 수 있습니다. 또한, 파이썬 라이브러리로 PyTorch 기반으로 구현해주셔서 GPU를 쉽게 사용할 수 있어 많은 양의 데이터를 빠르게 처리할 수 있습니다. 딥러닝은 아니지만 representation space등을 자주 다루어야하는 경우에 도움이 많이 될 수 있을 것 같습니다. 논문이 매우 길기 때문에 documentation에서 요약을 찾아보시는 것을 추천합니다.

논문: https://arxiv.org/abs/2103.02559 GitHub: https://github.com/cvxgrp/pymde Documentation: https://web.stanford.edu/~boyd/papers/min_dist_emb.html