Closed jungwoo-ha closed 1 year ago
Minerva: Solving Quantitative Reasoning Problems with Language Models
구글에서 기존 Problem Solving Model을 능가하는 Minerva를 발표하였습니다.
Arxiv 및 여러 블로그에서 기존에는 제거되었던 $LaTeX$를 text input에 사용하도록 하고 structured prompting을 이용해서 계산을 위한 코드나 계산기 등을 이용하지 않았음에도 불구하고 문제의 약 1/3 가량을 맞출 수 있는 모델을 개발하였습니다.
MIT OpenCourseware 수업의 문제에 대해 evaluation을 진행했을 때에도 과학, 경제학 등 여러 분야에서 robust한 성과를 보였는데 교육 분야 등에서 많은 도움이 될 수 있다고 생각됩니다.
Blog: http://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html
Arxiv: https://arxiv.org/pdf/2206.14858.pdf
HuggingFace Diffusers
GitHub: https://github.com/huggingface/diffusers
HuggingFace에서 Diffusion model을 PyTorch에서 구현하기 편리하도록 Diffusers 라이브러리를 오픈소스했습니다. Google Imagen 등 Diffusion에서 유명한 SOTA 모델이 이미 여럿 구현되어 있고 데이터 파이프라인을 작성하는데 등 많은 도움이 될 것 같습니다.
PyTorch 1.12: TorchArrow, Functional API for Modules and nvFuser, are now available New library updates in PyTorch 1.12
PyTorch 1.12가 Release 되었습니다! 새로운 DataLoader, nvFuser compiler, Complex Number support 등등 major feature addition및 update가 있어 많은 도움이 될 것 같습니다.
한국의 스타트업 생태계를 돕는 스타트업 얼라이언스에서 AI생태계 관련 두 개의 자료를 공개했습니다. 스타트업얼라리언스 리포트 사이트
하나는 "AI생태계, 스타트업이 말하다"라는 레포트이고(pdf), 다른 하나는 해당 레포트 저자 등의 토론회 발표자료인데요(pdf), 오늘은 첫번째 자료의 주요 내용과 이에 대한 저의 생각을 공유해 보겠습니다.
우리나라의 AI스타트업 현황을 보면 의료와 엔터테인먼트에 집중되어 있는 것을 알 수 있습니다. (참고로 이 자료에서 "엔터테인먼트"는 쇼핑, 패션, 뷰티, 여행, 컨텐츠, 게임 등 라이프스타일과 커머스를 포함한 카테고리입니다.) 의료 쪽은 이상하게도 AI 스타트업이 많습니다. 한국은 규제가 많은 나라인데도 말이죠... 아마도 시장 생태계의 선호보단, 여러 지원 속에 R&D 중심의 성장과 상장이 가능한 환경이었기 때문이 아닐까 싶습니다.
엔터테인먼트/라이프스타일/커머스/게임의 경우 스타트업이 가장 많이 발생하는 분야 중 하나로 여기에 "AI"란 점 하나를 찍어서 AI스타트업으로 포지셔닝 하는 스타트업이 많은 것 같습니다.
한가지 특징적인 점은 많은 AI스타트업이 초기투자단계(Pre-A 이전)인 경우가 많고, B2B 비즈니스를 단독/병행해 운영하는 경유가 많다는 점입니다. 시리즈A 이후부터는 Product-market fit을 찾은 이후의 성장단계에서의 펀딩이라 할 수 있습니다. 따라서 AI스타트업이 초기투자단계에 머물고 있다는 뜻은, 아직 시장에서 필요한 니즈를 제공하는 AI스타트업이 그리 많지 않다는 것을 뜻합니다.
B2C에서 제대로 된 AI의 효용을 찾지 못할 경우 할 수 있는 일 중 하나는 (정부지원사업의 가호 하에) 대기업/중소기업에게 AI 용역서비스를 제공하거나, 제품화 된 AI솔루션을 공급하는 일일 것입니다. 후자의 경우 시리즈A 정도가 되어야 가능한 일이기 때문에, 아직까지는 많은 AI스타트업들이 (젖과 꿀이 흐르는) 기존 대기업의 손길 하에 그 안에서의 협업을 도모하며 생존하고 있는 것으로 보입니다. 하지만 국내대기업을 고객으로 하는 B2B 성장이 과연 큰 AI비즈니스를 만들 수 있을지는 의문입니다.
위는 'AI생태계 활성화를 위해 무엇이 중요한지'를 조사한 자료인데요 (from 13개 AI스타트업 관계자의 심층인터뷰), 다음을 가장 해결해야 할 일로 꼽았습니다. 1) 시장 수요 2) 개발 인력 3) 데이터 4) 제도/규제 정비
근데 이거 빼면 뭐가 남나.. 다 문제란 소리 아닌가...
일단 시장에서 AI에 대한 수요를 창출하기 힘듭니다. 비록 이 보고서에서는 "AI시장 수요 확보와 사회적 수용을 장려하기 위해 1) 스타트업과 대기업 연계가 필요하고 2) 해외진출에 대한 정부지원이 필요하다"라고 했지만, 저는... 흠... 시장의 수요는 누가 만들어 주는게 아니기 때문에, 그게 안되면 스타트업이 아니라 R&D과제를 해야하는 것 아닌가요...
개발인력과 데이터 부족 역시 많은 스타트업들이 겪는 문제인데요, 결국 어떻게 하면 고급 개발 인력의 생산성과 영향력을 극대화 할지, 그리고 신규데이터 수집과 기존데이터 공유를 어떻게 활성화 해서 "두 번 데이터 수집 일을 안해도 되게"할 수 있을지에 대해 진지한 고민이 필요하지 않을까 싶습니다. 개발 인력과 데이터, 모두 한정적인 자원인만큼 이들의 효율을 극대화 할 방안이 필요합니다.
AI스타트업의 핵심은 AI가 아니라 스타트업입니다. "시장의 문제를 해결하는 스타트업이어야 한다"는 생존의 필수조건이지만, "AI를 써야한다"는 선택적 조건이기 때문이죠. 이런 차원에서 단지 "AI"를 붙였다고 시드투자를 받는 시대는 지나가고, 점점 더 시장성에 대한 검증이 철저해지는 시기가 아닌가 싶습니다. AI스타트업들 모두 화이팅! (ART Lab도 화이팅!)
Arxiv (Audio and Speech Processing)
이번 주 arxiv는 거의 INTERSPEECH2022에 accept된 논문이 쏟아져 나와서 concept 별로 빠르게 훑어봤습니다.