Closed jungwoo-ha closed 2 years ago
Arxiv (Speech, Singing Voice, Music)
News
- 2020년 8월 18일 스위스취리히공대와 소니 AI취리히(Sony AI Zürich) 연구팀은 소니인터랙티브엔터테인먼트가 출시한 드라이빙 시뮬레이터 그란투리스모 스포츠를 플레이할 수 있게 학습시키는 심층학습모델에 대한 논문을 발표 - https://arxiv.org/abs/2008.07971 ( https://ar5iv.org/html/2008.07971v2 )
- 2022년 2월9일 네이처 논문 abstract - We demonstrate the capabilities of our agent, Gran Turismo Sophy, by winning a head-to-head competition against four of the world’s best Gran Turismo drivers
- 인간 운전자를 능가하는 일대일 경쟁은 AI의 획기적인 성과로, 언젠가는 자율주행차 개발에 영향을 미칠 수 있다고 소개
- 소니는 3월 출시 예정인 그란 투리스모 7에 그란 투리스모 소피를 선수용 트레이닝 도구로 통합할 계획
- Gran Turismo의 제작자 Kazunori Yamauchi는 Wired와의 인터뷰에서 "Sophy는 인간 운전자가 결코 생각할 수 없는 레이싱 라인을 가지고 있습니다. “운전 기술에 관한 많은 교과서가 다시 쓰여질 것이라고 생각합니다.”
- AI 시스템이 만드는 편향성을 줄이자는 목소리는 높아졌지만 갈 길이 멀다. 현재 가장 큰 문제는 빅테크 기업 힘이 너무 강하다는 문제
- 빅테크 기업의 비윤리적인 행태를 활발히 말할 수 있는 '개발자 보호망(worker protection)'이 필요
- "AI는 개발 속도가 빨라선 안 된다. AI 기술은 천천히 발전해야 한다. 고려해야 할 점이 많기 때문이다"
- 대규모 언어모델(LLM)에서 오는 인종차별과 기후변화와의 문제도 있다. LLM에서 불리한 인종은 기후변화 영향에 더 크게 노출돼 있다. 이를 '환경적 인종차별(environmental racism)'이라 부를 수 있다.
- 인공지능 기업들과 산업에 미칠 영향은 ?
- 이 프레임워크는 연구원과 개발자가 NHS 환자 데이터에 대한 액세스 권한을 부여받기 전에 알고리즘 시스템의 가능한 위험을 평가하도록 지원하기 위해 파일럿에서 사용
- AIA는 AI 시스템을 설계하고 배포하는 사람과 기관에 책임을 묻기 위한 새로운 접근 방식
- 알고리즘이 사람, 사회 및 환경에 미치는 잠재적 영향을 미리 파악하고 식별하는 데 도움이 되는 한 가지 방법
MuZero with Self-competition for Rate Control in VP9 Video Compression
딥마인드에서 기존 체스, 바둑, 등 여러 게임을 규칙을 제공받지 않고 스스로 학습한 MuZero 모델을 video compression task에 적용하여 4~6% 가량 추가 압축을 구현했다고 합니다. 인터넷의 상당 부분이 비디오 전송인 것을 고려할 때 매우 중요한 연구로 생각됩니다. 다만, 강화학습 모델을 적용할 때 추가 연산이 가성비가 나올지 의문입니다.
Blog: https://deepmind.com/blog/article/MuZeros-first-step-from-research-into-the-real-world
Arxiv: https://storage.googleapis.com/deepmind-media/MuZero/MuZero%20with%20self-competition.pdf
Computer Vision: Algorithms and Applications 2nd ed. 2022 Edition 출간
컴퓨터 비전 분야의 대표 교과서인 Szleski Computer Vision의 신간판이 출시되었습니다.
Classical computer vision에 대한 심도 있는 이해뿐만 아니라 최신 딥러닝을 적용한 내용 또한 대폭 추가되었습니다.
Website: https://szeliski.org/Book
PDF 제공 링크: https://szeliski.org/Book/download.php
AI in health and medicine
Nature Medicine에서 의료 분야에 인공지능을 적용하는 것에 대한 리뷰 논문이 나왔습니다.
매우 새로운 내용은 없지만 citation들을 찾아보면 최근 트렌드를 파악하기 좋을 것 같습니다.
https://www.nature.com/articles/s41591-021-01614-0
When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism
Microsoft Research Asia(MRSA)에서 Self-Attention 대신 shift operator를 적용했을 때에도 self-attention과 유사한 성능을 보일 수 있는 내용의 논문을 냈습니다. 최근 초거대 인공지능의 부담이 self-attention으로 인한 것임을 감안할 때 매우 중요한 연구로 생각됩니다.
GitHub: https://github.com/microsoft/SPACH
Arxiv: https://arxiv.org/abs/2201.10801
특히 Swin Transformer의 구조를 도입했을 때 parameter의 숫자가 같아지도록 더 깊은 모델을 학습했을 때 Swin Transformer 이상의 성능을 보였다고 주장하는데 이는 유의미한 결과라고 봅니다.
Einops: Clear and Reliable Tensor Manipulations with Einstein-like Notation
ICLR 2022 Oral Session에 EinOps 논문이 Oral Session으로 채택되어 상당한 논란이 있었습니다.
특히 Transformer 분야에서 많이 사용하는 notation 이고 의의는 있었으나 ICLR의 존재 의의 및 역할이 무엇인지 고민을 하게 되는 것 같습니다.
OpenReview: https://openreview.net/forum?id=oapKSVM2bcj
News
This company says it’s developing a system that can recognize your face from just your DNA
The AI pioneer says it’s time for smart-sized, “data-centric” solutions to big issues
모두의연구소, 70억 원 투자 유치…AI 연구·인재창출 앞장
Learning robust perceptive locomotion for quadrupedal robots in the wild (Science Robotics)
Arxiv
Block-NeRF: Scalable Large Scene Neural View Synthesis
구글 웨이모에서 나온 도시환경 scene 생성을 위한 NeRF
다수의 작은 Block NeRF들을 별도로 학습하고 생성결과를 combine
mip-NeRF를 확장. 위치, 방향, 노출, apprearance embedding활용 RGB생성, 위치+방향으로 visibility 생성 두개의 MLP
이를 위해 별도의 데이터셋 구축
성능을 보면 여러개의 Block-NeRF를 써서 합하는것이 퀄이 좋다고 (같은 메모리에도, Block당 커버 거리도 줄어듬)
Project page: https://waymo.com/research/block-nerf/
MaskGIT: Masked Generative Image Transformer
Mased visual token modeling (BEiT 스타일) 의 생성모델 from Google Research
VQ-GAN visual token 기반으로 하나 auto-regressive decoding인 VQ-GAN과는 달리 iterative parallel decoding으로 속도가 빠름
Decoding에서 Masking 전략이 이 연구의 핵심으로 보임
ImageNet 256, 512에서 BiGGAN 보다 더 좋은 퀄을 보임 (모델 크기는 조금더 크긴 함)
Scaling Law for Recommendation Models: Towards General-purpose User Representations
네이버 클로바 (ML_X팀) 에서 공개한 아마도 세계최초 추천을 위한 범용 user representation 학습에서의 scaling laws 연구 (11월 공개 but 추가실험 통해 업뎃)
CLUE: Clip-style로 검색쿼리 시퀀스-쇼핑아이템 시퀀스를 contrastive semantic similarty 학습
이를 위해 Transformer를 item sequence레벨과 서비스 레벨로 구조화
서비스간 아이템 id 공유 문제를 해결하기 위해 모든 item들은 자연어로 변환하여 tokenizing
이를 위해서 11M사용자(익명처리 완료) 50B token 데이터 학습
모델크기, 훈련데이터크기, 시퀀스 길이, 배치 사이즈등이 주는 영향 --> training perforamce가 computation (모델크기+데이터)의 scaling law를 따름
7개의 다양한 서비스의 추천 문제에 transfer learning (Simple MLP만 추가, CLUE는 Frozen encoder로만 활용) + 온라인 성능평가
각 서비스 데이터에 대한 task-specific 모델들에 비해 더 좋은 성능 뿐 아니라 CLUE feature 활용 hybrid도 가능
Cold start에서도 뛰어난 경쟁력 + 심지어 네이버 서비스가 아닌 오픈 마켓 플랫폼의 전혀다른 서비스에서도 좋은 성능
기타 눈에 띄는 논문