Closed jungwoo-ha closed 2 years ago
Understanding the Generalization Benefit of Normalization Layers: Sharpness Reduction
https://arxiv.org/abs/2206.07085
Batchnorm, Layernorm, 등 normalization layer와 weight decay를 같이 적용했을 때 neural network 학습에 어떤 영향을 미치는지에 대해 수학적인 분석 및 실험 결과에 대한 해석입니다. Normalization은 neural network weight에 대해 scale invariance를 가지게끔 하지만 weight decay는 여전히 gradient의 magnitude에 영향을 미치기 때문에 학습 안정성에 기여한다고 저자들이 주장합니다.
또한, sharpness의 개념을 보다 체계화하기 위해 unit sphere로 projection한 weight matrix의 Hessian을 기준으로 삼아 normalization으로 인한 norm magnification issue를 해결하고자 합니다.
Speak Like a Dog: Human to Non-human creature Voice Conversion
Arxiv: https://arxiv.org/abs/2206.04780 GitHub: https://github.com/suzuki256/dog-dataset 인간 목소리를 비인간 음성의 특성을 띄도록하는 연구가 공개되었습니다. 애니메이션이나 판타지 영화 등에서 짐승 및 괴물의 음성을 생성하기 위해 여러 각색을 시도해야 하는데 Speak like a dog 모델을 사용하면 기존 방법에 비해 손쉽게 비인간 음성을 생성할 수 있을 것으로 생각됩니다.
논문 중에는 StarGAN을 mel spectrogram 영상에 적용하여 인간 발화와 개의 소리 사이에 변환을 진행합니다. 인간 음성과 개의 소리 사이에 소리의 길이 등 차이를 감안하는 등 task-specific issue에 대한 설명도 있습니다.
아래 참조를 위해 생성 음성 예시를 공유해드립니다. 일본어이고 퀄리티가 매우 높지는 않지만 시장성이 매우 높은 연구분야라고 생각됩니다.
Samples: https://drive.google.com/drive/folders/1aQ5o0Ond50nbAvZsp_me4b97j8VtLYbz
News
Google LaMDA에 대한 이슈
Meta AI의 조직 구조 개편
https://www.ajronline.org/doi/10.2214/AJR.22.27598 https://www.eurekalert.org/news-releases/955757 https://m.medicaltimes.com/News/NewsView.html?ID=1147887
- 실제 임상 환경에서 흉부 CT 해석을 위한 임상 워크플로에 통합된 자동화된 AI 플랫폼이 방사선 전문의의 해석 시간에 미치는 영향을 평가
- AI 판독 지원 시스템을 사용했을때의 효과를 단일센터 전향적 연구 결과로 검증
- 2021년 1월 19일부터 28일까지 사우스캐롤라이나 의과대학(MUSC)에서 외래 환자 흉부 CT를 받은 390명의 환자(여성 204명, 남성 186명, 평균 연령 62.8세)를 대상
- 결론: 흉부 영상의학과 전문의는 AI 지원 플랫폼을 사용할 경우 흉부 CT 해석 시간이 22.1% 감소 (하루 1시간 단축)
https://github.com/hollobit/WG3_TCM
- ISO/IEC JTC1/SC 42/WG3 roadmapping AHG에서 작업 중인 matrix
- SC42에서 개발된(중인) 표준들과 trustworthiness characteristic들과의 연관성을 mapping 하는 분류 작업 시작
- github을 이용한 첫번째 형태, 앞으로 어떻게 이쁘게 직관적으로 관계와 관련성들을 잘 표현할지 계속 고민할 예정
Amii AI-Week 2022
Asynchronous SGD Beats Minibatch SGD Under Arbitrary Delays
Heavy-Tail Phenomenon in Decentralized SGD
Prioritized Training on Points that are Learnable, Worth Learning, and Not Yet Learnt (ICML 2022)
Wide Bayesian neural networks have a simple weight posterior: theory and accelerated sampling (ICML 2022)
A Deep Dive into Dataset Imbalance and Bias in Face Identification
News
ArXiv
Disentangling visual and written concepts in CLIP
OmniMAE: Single Model Masked Pretraining on Images and Videos
Beyond Supervised vs. Unsupervised: Representative Benchmarking and Analysis of Image Representation Learning
BYOL-Explore: Exploration by Bootstrapped Prediction
Characteristics of Harmful Text: Towards Rigorous Benchmarking of Language Models
Language Models are General-Purpose Interfaces