Closed jungwoo-ha closed 2 years ago
Winter is coming ? AI 및 ML 전문가 급여 하락
- 2021년에는 기계 학습, 자연어 처리 및 AI 전문가 평균 급여가 각각 2.1%, 7.8%, 8.9% 하락
- "더 많은 기술자가 이러한 기술을 배우고 숙달하고 있다는 점" ...
- Nature에 실린 코넬대와 NTT 연구자들이 함께 한 Deep Physical Neural Networks 연구.
- 세가지 물리적 시스템(기계, 공학 및 전기)을 신경망 모델처럼 변경해 BP 알고리즘으로 학습이 가능한지를 실험
- 시뮬레이션 환경이 아닌 실제 물리적 하드웨어 상에서 수행
- 수학 기능을 먼저 훈련시킨 다음 물리적 프로세스가 이를 실행하도록 설계하는 기존 방식과 달리 물리적 프로세스를 직접 훈련한다는 점을 강조
- 최종 정확도는 광학 기반, 전자 및 기계 PNN에 대해 각각 97%, 93% 및 87%
- GPT-3과 같은 사전 훈련 언어 모델은 NLP 작업에서 탁월했지만 의도하지 않은 출력이나 사용자의 지시를 따르지 않는 출력 생성 이슈가 있음
- 이에 RLHF(인간 피드백에서 강화 학습) 방법론을 사용하여 큰 언어 모델을 사용자의 목표에 더 잘 맞추도록 시도
- 시사점
- InstructGPT 모델은 정확성 측면에서 GPT-3보다 성능이 우수
- RLHF 미세 조정 기술을 조정하여 공개 NLP 데이터 세트에서 성능 회귀를 줄일 수 있음
- InstructGPT는 계속해서 사소한 오류를 범함
News
인공지능 은행원이 점점 보급되고 있습니다
국방에도 AI의 물결이
재미있게 본 글
Instant Neural Graphics Primitives with a Multiresolution Hash Encoding
NVIDIA에서 15초만에 1920x1080 영상을 생성하도록 학습 가능한 Nerf 모델을 개발했습니다.
영상에서 보시듯이 기존에 하나의 영상을 학습하기 위해 매우 시간이 오래 걸린 Nerf 모델을 고해상도에서 짧은 시간 내로 학습하여 video 형태로 inference를 진행했습니다.
Blog: https://nvlabs.github.io/instant-ngp
GitHub: https://github.com/NVlabs/instant-ngp
Paper: https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf
Awesome 인증 GitHub repository 공유해드립니다. https://github.com/sindresorhus/awesome
- 제2조 중화인민공화국 영역 내에서 인터넷 정보 서비스(이하 "심층 합성 서비스"라 함) 제공 및 심층 합성 서비스에 대한 기술 지원 제공은 이 규정을 적용한다. 법령 및 행정법규에 달리 규정하는 경우에는 그에 따릅니다. -이 규정에서 언급하는 "딥 합성 기술"이라는 용어는 딥 러닝 및 가상 현실로 대표되는 생성 합성 알고리즘을 사용하여 텍스트, 이미지, 오디오, 비디오, 가상 장면 및 기타 정보를 생성하는 기술을 의미합니다. : -(1) 챕터 생성, 텍스트 스타일 변환, 질의응답 대화와 같은 텍스트 콘텐츠를 생성하거나 편집하는 기술; -(2) 텍스트-음성 변환, 음성 변환 및 음성 속성 편집과 같은 음성 콘텐츠 생성 또는 편집 기술; -(3) 음악 생성 및 장면 사운드 편집과 같은 비음성 콘텐츠를 생성하거나 편집하는 기술; -(4) 얼굴 생성, 얼굴 교체, 문자 속성 편집, 얼굴 조작, 제스처 조작 및 이미지 및 비디오 콘텐츠의 얼굴과 같은 생체 특징을 생성하거나 편집하기 위한 기타 기술 -(5) 이미지 향상 및 이미지 복원과 같은 이미지 및 비디오 콘텐츠의 비생물학적 특징을 편집하는 기술; -(6) 3D 재구성과 같은 가상 장면을 생성하거나 편집하는 기술.
ArXiv
AlphaCode
Deepmind 에서 공개한 코딩 경진대회 문제 풀이 AI
Pretraining: Github 코드 715GB / Finetuning: Codecontests (Codeforce, CodeNet 문제 + 솔루션)
기본 구조는 Transformer seq2seq (Decoder (LM) >> Encoder (MLM)), 임의로 잘라서 앞은 encoder, 뒤는 decoder
CODEX 대비 기능 전체를 구현한다는 측면에서 상이함. 인간 참가자 상위 54%정도 달성
CODEX와 마찬가지로 개발시 유용한 도구로 활용 가능할듯
mSLAM: Massively multilingual joint pre-training for speech and text
Google에서 나온 다국어(101개 언어) 음성-언어 멀티모달 러닝 모델
w2v-BERT 과 Span-BERT 로 MLM기반의 Self-supervised, 그리고 speech-text aligned 데이터로는 CTC로스로 학습
음성인식과 다양한 NLP태스크 그리고 일부 Zero-shot 태스크 성능 보여줌
이제 vision-text 뿐 아니라 audio-text pretraining 후 zero-shot 류도 트렌드가 될 듯
UniFormer: Unified Transformer for Efficient Spatial-Temporal Representation Learning
Video 인식을 위해 3d conv 와 ViT의 장점을 취한 새로운 모델 (from SenseTime, ICLR 2022)
Dynamic position encoding + MHRA (multi-head relation aggregation) + FFNN 조합
낮은 layer에선 local detail 을 보도록, 상위 layer에서는 global dependancy 를 보도록 MHRA 의 Affinity 연산을 다르게 적용
그래서 동일한 구성이지만 전체적으로는 아래쪽은 Conv 유사 위쪽은 SA와 유사 기능하는 구조
기존 Video Trasnformer나 3D Conv류 보다 훨씬 적은 연상량으로 더 정확한 성능을 보인다고..
ImageNet-1k 에서도 좋은 성능, K-400, K-600, SSv1/v2 모두에서 성능 좋음.
https://github.com/Sense-X/UniFormer
IMO solver by Open AI (다음 주에 정현님에게)