Closed jungwoo-ha closed 2 years ago
Composing Zero-Shot Multimodal Reasoning with Language
4월 초에 나온 것을 또 멋진게 나왔나 보다 하고 스쳐지나쳤는데, Colab을 실행해 보니 허무할 정도로 너무 간단하지만, 발상의 전환을 하게 해줬던 인상적인 작업이었습니다. 위 Image Captioning 코드를 보면, 어떤 이미지가 있을 때
응용 - 이야기 생성, 시연 영상
Horror 버젼
유저가 접근 가능한 LLM과 VLM(또는 MMM)을 어떻게 연결해서 활용할 수 있는지 상상력을 자극하는 작업
웹캠 + 디오라마/스톱 모션 애니메이션 구성을 활용한다면 유치원 어린이들이 교실에서도 활용 가능 (KELIP + 클로바 스튜디오)
Denny Zhou가 OpenAI의 Peter Welinder의 트윗을 Chain-of-though prompt 관점으로 보고 리트윗
매우 흥미로운 Peter Welinder의 접근 https://twitter.com/npew/status/1525900849888866307
그런데 이게 어떻게 가능한거죠???
조금 과장된 Jason Wei의 트윗
plus
The Berkeley Crossword Solver Albert Xu: We built an AI system for solving crossword puzzles that outperforms the world’s best humans. It works by combining deep learning with traditional probabilistic search and inference methods. (2022.05.21.)
https://huggingface.co/Gradio-Blocks
투자 받은 영향? 계속 이렇게 사용할 수 있도록 열어놓을 것인지 궁금합니다. ( The event will take place from May 17th to 31st. )
plus
DALL·E 2 Research Preview Update: Early users have created over 3 million images to date and helped us improve our safety processes. We’re excited to begin adding up to 1,000 new users from our waitlist each week. https://openai.com/blog/dall-e-2-update/
AI 연구를 하시는 분들의 참여도 환영합니다!
GitHub Flavored Markdown에서 드디어 $\LaTeX$가 지원됩니다!
Blog: https://github.blog/2022-05-19-math-support-in-markdown
MathJax를 기반으로 $$
을 이용한 Markdown 내 수식이 Latex 문법을 따라 표기가 됩니다.
단순한 one-line equation 뿐만 아니라 $$...$$
형태를 통해 아래와 같은 multi-line equation 또한 지원되니 GitHub를 통해 README 및 블로그 작성할 때 많은 도움이 될 것으로 생각됩니다.
$$ % \begin{equation} \begin{align} &f(t)=diet \ &\frac{d}{dt}f(t)=die \ &\int^{\infty}_{t_q}\frac{d}{dt}f(t)dt=diet+C \ \end{align} % \end{equation} $$
Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised Semantic Segmentation and Localization
CVPR 2022 Oral Session Paper from Oxford University.
Website: https://lukemelas.github.io/deep-spectral-segmentation GitHub: https://github.com/lukemelas/deep-spectral-segmentation Arxiv: https://arxiv.org/abs/2205.07839 HuggingFace Sapce: https://huggingface.co/spaces/lukemelas/deep-spectral-segmentation
The Primacy Bias in Deep Reinforcement Learning ICML 2022 Accepted Paper GitHub: https://github.com/evgenii-nikishin/rl_with_resets Arxiv: https://arxiv.org/abs/2205.07802
최근 reinitialization의 영향이 주목받고 있는 것으로 보입니다. https://openreview.net/forum?id=DqKdgQx7nY
주제를 가져온 이유
얼어붙고 있는 주식 시장
세계 주식시장이 얼어붙고 있습니다. Covid-19 이후 경기 부양을 위해 많은 돈(=유동성)을 풀었고, 이 돈들이 부동산, 비트코인과 같은 자산가격을 높였을 뿐 아니라 스타트업 투자 시장에도 활기를 불어넣었는데요, 활황이었던 IPO 시장 덕분에 초기스타트업 투자까지 단계별 투자의 선순환이 잘 이루어지고 있었습니다
스타트업 시장의 선순환 : IPO로 돈을 회수할 있음 -> 스타트업에 투자해도 수익성이 좋음 -> 스타트업은 투자를 받아 도전할 수 있음
하지만 우크라이나 전쟁, 원자재값 상승 등으로 물가가 가파르게 오르고 있고, 이에 따라 각 국가들이 급격히 금리를 올리고 풀렸던 돈을 회수함에 따라 주식시장이 빠르게 붕괴되고 있음. (한국은 작년 여름부터, 미국은 올해 초부터 30% 이상 빠짐)
금리 인상과 유동성 축소는 특히 성장성 높은 테크기업에 큰 타격을 줌. 테크기업은 빠른 성장세를 기반으로 미래의 이익 당겨와 현재에 많은 R&D 투자를 하는데 (대신 현재 매출이 기업가치 대비 충분치 않음), 미래에 경기침체를 우려하는 목소리가 높아지고 미래의 이익을 현재로 당겨오는 금리 기반 할인율이 커짐에 따라 현재 기업가치에 대한 평가가 폭락 수준임.
네이버, 카카오도 거의 반토막, 아마존, 넷플릭스 등의 FAANG 주가도 골로 가는 중...ㅠ
게다가 코인 시장도 붕괴됨 (잘가 루나코인...ㅠ)
당장 현금을 창출하지 못하는 기업은 망할 것이다. 최악의 상황을 대비하라.
'기술특례상장'으로 상장한 국내 AI스타트업의 매출 실적도 아직은...
발등에 불 떨어진 IPO 준비 중의 스타트업들
https://www.mfds.go.kr/brd/m_99/view.do?seq=46379&srchFr=&srchTo=&srchWord=&srchTp=&itm_seq_1=0&itm_seq_2=0&multi_itm_seq=0&company_cd=&company_nm=&page=3 https://www.imdrf.org/sites/default/files/2022-05/IMDRF%20AIMD%20WG%20Final%20Document%20N67.pdf
- (영문명) Machine Learning-enabled Medical Devices: Key Terms and Definitions
- 5월 9일 ‘국제 의료기기 규제당국자 포럼(IMDRF)’ 인공지능(AI) 의료기기 실무그룹(working group)에서 공식 승인
https://github.com/jungwoo-ha/WeeklyArxivTalk/issues/50#issuecomment-1114224633
요 기사도 재밌게 읽었습니다 Wall Street Journal 기사입니다(가입해야 볼 수 있음 ㅠ)
News
ArXiv
TRT-ViT: TensorRT-oriented Vision Transformer
실용적인 연구내용 공개로 유명한 중국 Bytedance의 연구
NVidia T4상에서 TensorRT 기반으로 ViT를 활용 서빙할 때를 가정한 것으로 보임
기본적으로 Conv + ViT hybrid 구조이며 Conv 모듈이 상당히 많고 ViT 안에도 1x1 / 3x3 / 1x1 으로 구성된 Bottleneck 포함
일단 Latency 나 정확도 그래프에서는 괜찮은데 최근에 나온 더많은 hybrid 모델(Mobile-Former, MobileViT)과의 비교나 왜 잘되는지에 대한 in-depth 분석은 아쉬움.
연구관점에서 매력도는 모르겠지만(특히 NeurIPS 제출이라면....) T4+TensorRT기반 서빙하는 기업들 (특히 이미지 인식류 스타트업)에게는 실용적으로 도움이 될지도.
Training Vision-Language Transformers from Captions Alone
MS에서 나온 캡션을 활용한 Self-supervised learning
ViT 백본은 MAE를 쓰기 때문에 class 정보를 쓰지 않음.
ViLT와 비교해보면 MIM loss가 추가
같은 크기에서 ViLT 보다 더 좋은 성능을 보인다고. 그런데 속도 비교는 없음.
눈여겨볼 연구들
ConvMAE: Masked Convolution Meets Masked Autoencoders