jungwoo-ha / WeeklyArxivTalk

[Zoom & Facebook Live] Weekly AI Arxiv 시즌2
973 stars 41 forks source link

[20230604] Weekly AI ArXiv 만담 시즌2 - 18회차 #84

Open scene-the-ella opened 1 year ago

scene-the-ella commented 1 year ago

News

ArXiv

veritas9872 commented 1 year ago

News

Gilbert Strang's Final Lecture at MIT image YouTube: https://www.youtube.com/watch?v=lUUte2o2Sn8&ab_channel=MITOpenCourseWare

딥러닝과 직접적인 관련은 없지만 지난 63년 동안 선형대수 교육법을 크게 바꾸신 길버트 스트랭 교수님의 마지막 강연이 있었습니다. 학계의 특성 상 교육보다 연구가 중요시되지만 수백만 명에게 선형대수를 가르치신 스트랭 교수님의 공로는 매우 크다고 생각됩니다.

CUDA 기반 GPU 병렬처리 프로그래밍 딥러닝을 빠르게 학습 및 실행할 수 있도록 하는 기초적인 하드웨어인 GPU에 대한 한국어 책이 나왔습니다. 기존에는 영어 원서를 번역한 저서만 있었던 반면 해당 저서는 전 KISTI 연구원께서 한국어로 작성한 저서로 병렬 컴퓨팅을 배우고자 하는 많은 분들께 유익할 것 같습니다. image

Link: https://product.kyobobook.co.kr/detail/S000202185653 YouTube: https://www.youtube.com/@hpclab.koreatech4592/featured

Fake image of Pentagon explosion briefly sends jitters through stock market Link: https://apnews.com/article/pentagon-explosion-misinformation-stock-market-ai-96f534c790872fde67012ee81b5ed6a4 image

미국 국방부 펜타곤 건물이 폭파하는 가짜 영상이 퍼지면서 잠시 미국 S&P500 등 주가 지표가 흔들렸습니다. 인공지능으로 생성된 가짜 영상 및 영상이 초래할 수 있는 사회적 이슈의 조짐일 수도 있습니다.

Your job is (probably) safe from artificial intelligence: Why predictions of an imminent economic revolution are overstated Link: https://www.economist.com/finance-and-economics/2023/05/07/your-job-is-probably-safe-from-artificial-intelligence

최근 GPT와 같은 인공지능의 등장으로 인해 생산성이 향상될 것이라는 주장이 대세이지만 반대 견해 중 흥미로운 기사를 발견해 공유해드립니다. 지난 기술 혁명에서도 사회적으로 도입되는데 많은 시간이 걸렸고 처음 생각했던 것보다 혜택이 집중된 경우가 많았는데 생성형 인공지능 또한 마찬가지일 것이라는 주장에 크게 공감니다. 기술 자체보다 기술 사용에 관한 규제가 더 중요하다는 주장에 동의합니다.

image image

image

News(ish Papers)

The Larger They Are, the Harder They Fail: Language Models do not Recognize Identifier Swaps in Python ArXiv: https://arxiv.org/abs/2305.15507

현재 최고의 SOTA LLM 모두 Python에서 함수명을 교체했을 때 코드를 이해하지 못하는 것을 보여주는 흥미로운 논문입니다. LLM이 여전히 세상에 대한 이해가 부족하다는 주장을 뒷받침해줍니다.

image image

TinyStories: How Small Can Language Models Be and Still Speak Coherent English? ArXiv: https://arxiv.org/abs/2305.07759 HuggingFace: https://huggingface.co/datasets/roneneldan/TinyStories

언어에 대한 추론 능력 등은 거대 모델에서만 발생하는 emergent ability로 알려져 있으나 어린이 동화책 난이도의 단어만 사용했을 때 상대적으로 작은 모델에서도 우수한 성능을 보인다고 주장합니다. 현재 댓글을 봤을 때 재현에 어려움이 있으나 지난번 emergent ability는 단지 측정 과정에서 발생하는 illusion이라는 주장을 뒷받침합니다.

image

Scaling Data-Constrained Language Models ArXiv: https://arxiv.org/abs/2305.16264 GitHub: https://github.com/huggingface/datablations

image

최근 인터넷 데이터가 부족할 것이라는 주장이 나오면서 한정된 언어 데이터를 보다 더 효율적으로 활용할 수 있는지 분석한 논문입니다. LLM 학습에서 1 epoch 조차 사용하지 않는 것이 일반적이지만 4 epoch까지는 큰 성능 저하 없이 사용 가능하다고 합니다. 한국어와 같이 상대적으로 데이터 양이 적은 언어 및 코드와 같은 subdomain에서는 중요한 연구 방향이라고 생각됩니다.

scene-the-ella commented 1 year ago

ArXiv w/ CVPR

ShapeTalk: A Language Dataset and Framework for 3D Shape Edits and Deformations

3D Generative Models

image
veritas9872 commented 1 year ago

Research

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Website: https://vcai.mpi-inf.mpg.de/projects/DragGAN/ Paper: https://vcai.mpi-inf.mpg.de/projects/DragGAN/data/paper.pdf

image

생성모델 결과물을 마우스 클릭으로 변경할 수 있는 방법론이 나왔습니다. 기존의 GAN 모델은 매우 coarse 하게만 결과물을 지정할 수 있었지만 이번에 새로 나온 방법론은 StyleGANv2의 feature map과 motion supervision loss를 결합해 연속적인 움직임을 생성합니다.

image

Voyager: An Open-Ended Embodied Agent with Large Language Models

Website: https://voyager.minedojo.org/ GitHub: https://github.com/MineDojo/Voyager ArXiv: https://arxiv.org/abs/2305.16291

LLM을 기반으로 마인크래프트 게임을 플레이하는 논문이 나왔습니다. 기존의 강화학습 방법은 목적이 뚜렷하지 않은 open-ended game에서 많은 어려움을 겪었으나 GPT-4와 같은 LLM 모델에 자연어 및 코드로 프롬프트를 제시할 경우 현 SOTA보다 매우 우수한 성능을 보이는 플레이를 진행할 수 있습니다. 오랜 야망이었던 AI NPC가 만들어지는 과정의 일부라고 생각됩니다.

image image image image image

Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles

ArXiv: https://arxiv.org/abs/2306.00989 GitHub: https://github.com/facebookresearch/hiera

ICML 2023 Oral 선정된 Meta에서 나온 연구 소개합니다. 기존의 ViT 모델은 locality 정보를 활용하기 어려워 SwinTransformer 등 새로운 구조가 등장했으나 이런 새로운 방법론은 Masked AutoEncoding (MAE) 방식을 적용하지 못한다는 단점이 있었습니다. Hiera는 patch를 mini-batch dimension으로 이동하는 방식과 첫 2개 stage에서 convolution layer를 maxpooling으로 대체하고 mask patch 내부에서만 attention을 활용하고 3번째부터 global attention을 사용하는 방식으로 순수 ViT를 사용함에도 Classification 및 Segmentation에서 우수한 성능을 보였습니다. SwinTransformer와는 다르게 MAE를 적용했을 때 masking된 patch를 제거하기 때문에 학습 및 추론 시간이 대폭 향상됩니다.

image

image

image