Closed jungwoo-ha closed 2 years ago
Musical Speech: A Transformer-based Composition Tool
Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System
Daft-Exprt: Robust Prosody Transfer Across Speakers for Expressive Speech Synthesis
Bipedal robot from Oregon State University completes 5-km run using machine learning
Make Every feature Binary: A 135B parameter sparse neural network for massively improved search relevance
The Open-Source Movement Comes to Medical Datasets
China’s lonely hearts reboot online romance with artificial intelligence
인공지능 기술까지...중국서 가짜 SNS계정으로 친중 활동 하는 법
AI가 쓴 소설, 읽을 준비 되셨나요 ?
Nvidia is tracking more than 8,500 AI startups with $60B in funding
Pentagon is using artificial intelligence to predict the future and give it 'days of advanced warning' on attacks on sensitive sites like the Panama Canal
Economist-less economics: The future of economics in an AI-biased world
내일부터 3일간 (08/09~08/11) 서울대학교에서 AI 여름학교를 엽니다!
여러 흥미로운 주제 (theoretical ML/DL, privacy, fairness, NLP, generative model, data augmentation... 등등)들에 관하여 여러 교수님들 (SNU, Google, Stanford..etc.)이 강연하시니, 원하시는 시간대에 들어가서 보면 좋을 것 같습니다! 참고로 registration 없고, Zoom/Youtube 링크가 열려있어서, 원하실때 들어갔다가 나오는게 가능한 것 같습니당
Don't Sweep Your Learning Rate under the Rug: A Closer Look at Cross-modal Transfer of Pretrained Transformers Arxiv: https://arxiv.org/abs/2107.12460
ICML 2021 workshop paper로 accept된 Facebook의 반박 논문입니다.
기존의 Pretrained Transformers as Universal Computation Engines 논문에서 pre-train된 transformer는 stem과 head를 제외하고 freezing을 했을 때 fine-tuning을 할 경우에도 전체 fine-tuning을 한 것과 유사한 성능을 낼 수 있다는 논문이 화제가 되었는데 알고보니 hyper-parameter tuning, 특히 learning rate를 조금만 다르게 잡으면 전혀 그렇지 않는다는 (김빠지는) 내용의 논문입니다.
물론 새로운 발견을 하는 것만큼 신나는 논문이 될 수는 없겠지만 이러한 논문도 중요하다고 생각합니다.
A Realistic Simulation Framework for Learning with Label Noise
DeepMind에서 나온 논문으로 현재 리뷰 중입니다.
Arxiv: https://arxiv.org/abs/2107.11413 GitHub: https://github.com/deepmind/deepmind-research/tree/master/noisy_label
현재 label noise가 있을 경우에 robustness를 측정하고자 할 때에는 random noise, class specific noise 등을 사용하는 것이 일반적인데 현실에서는 instance specific difficulty가 다릅니다. 이때, 여러 모델을 다른 hyper-parameter setting에서 rater로 만들어 학습시킨 후 pseudo-label을 만들도록 해서 실제 difficulty와 유사하도록 만듦니다.
또한, 이러한 데이터셋으로부터 현재 robust learning 방법론들의 결과를 측정해보고 일반적인 random label noise에 비해서는 성능이 저하됨을 확인합니다.
중요한 발견은 1. class imbalance가 강한 환경에서 label noise가 더 강하다. 2. hard task보다 easy task에서 label noise에서의 악영향이 더 강하다. 2번이 예상 외인데 저자 설명보다 심도 있는 설명이 필요할 것 같습니다.
Paper
Open-Ended Learning Leads to Generally Capable Agents
LARGE-SCALE GRAPH REPRESENTATION LEARNING WITH VERY DEEP GNNS AND SELF-SUPERVISION
대한의료인공지능학회 여름 학교 8/13 ~ 8/14 https://www.kosaim.org/html/?pmode=BBBS0007100001&smode=view&seq=91
Weisfeiler and Lehman Go Cellular: CW Networks (under review for NeurIPS 2021?)
GRAND: Graph Neural Diffusion (ICML 2021 Spotlight)
Loss Surface Simplexes for Mode Connecting Volumes and Fast Ensembling (ICML 2021 Spotlight)
이번에 시간이 없어서 일단 적기만 하는 논문들 (다 ICML 2021 oral입니당):
클럽하우스에서 언급한 내용에 대한 논문을 찾아서 공유드립니다.
ArXiv
Perceiver IO: A General Architecture for Structured Inputs & Outputs
다양한 modality를 하나의 customized self-attention 기반 architecture 활용 학습하는 Perceiver (ICML 2021)
기존은 encoder에 간단한 classification 이나 score만 뱉을 수 있었음
이번엔 decoding 부분을 강화하여 input 은 물론 output 도 크기에 linear scale-up 되도록 모델 구성
훨씬 더 복잡하고 고차원의 벡터로 표현되는 output task에도 적용
Deepmind의 AGI를 향한 의지가 보이는 연구
코드: https://github.com/deepmind/deepmind-research/tree/master/perceiver
Neural Scene Decoration from a Single Photograph
실내 인터레이어나 데코레이션을 생성하는 연구 (from HKUST)
Empty scene + point-level object labels --> Indoor scene generation.
SPADE, BatchGAN customizing 버전과 비교
Transfer Learning for Pose Estimation of Illustrated Characters
애니메이션이나 일러스트레이션 사람의 pose estimation (from UMCP)
Mask RCNN 기반의 pose estimator + ResNet50+단부루 tagger second pretraining + 추가 모듈
Sketch Your Own GAN
The AI Economist: Optimal Economic Policy Design via Two-level Deep Reinforcement Learning
경제 정책이나 경제 동작원리설계 등 에 RL을? (from SalesForce, You.com, R. Socher)
Two-level RL을 활용한 economic simulation
A Low Rank Promoting Prior for Unsupervised Contrastive Learning
Nuclear norm의 low rank prior로 활용하는 MoCo 개선 버전
코드구현체는 몹시 간단함. (Nuclear norm을 매번 계산해야 함)
SwAV와 같이 Multi-view + multi-crop 적극활용
200 epoch + 256 batch 로 BYOL과 동일한 성능 (ImageNet-1k, ResNet-50 기준)
SwAV 처럼 Forward pass는 많이 써야함. 큰모델 Uncurated 더 큰 데이터 working 여부 궁금?