jungwoo-ha / WeeklyArxivTalk

[Zoom & Facebook Live] Weekly AI Arxiv 시즌2
973 stars 41 forks source link

[20230416] Weekly AI ArXiv 만담 시즌2 - 14회차 #80

Open jungwoo-ha opened 1 year ago

jungwoo-ha commented 1 year ago

News

2023 Stanford AI Index Report 특집

10개 Key message

image image

Ch2. Tech Performance - Timeline in 2022

image image image image image image image

Ch6. Policy and Governance

veritas9872 commented 1 year ago

이번 주에도 중요한 연구가 많이 발표되었지만 뉴스에 집중하도록 하고 다음 주에 정리하도록 하겠습니다.

PR12 발표: 지난 주 제가 Symbolic Discovery of Optimization Algorithms (Lion Optimizer) 내용을 PR12에서 발표한 동영상 공유해드립니다. 새로운 Optimizer 및 evolutionary search 알고리즘에 대한 연구에 흥미 있으신 분들 참조 부탁드립니다. 링크

지난 주 리뷰: 조금 부끄럽지만 지난번 공유드린 30T parameter 모델 관련 트위터 글은 만우절 농담이라고 합니다...

뉴스 겸 연구: Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm

ChatGPT의 라이선스에서 GPT 모델의 출력을 경쟁 언어모델을 만들기 위해 사용하는 것을 금지하는 조항이 있는데 최근 DataBricks에서 최초의 완전히 오픈소스 모델인 Dolly2를 공개했습니다. In-house LLM을 만드는데 많은 도움이 될 것으로 생각됩니다.

Building LLM applications for production https://huyenchip.com/2023/04/11/llm-engineering.html

MLOps 관련 책의 저자이자 블로거로 유명하신 Chip Huyen님께서 LLM을 production에서 사용하기 위한 블로그를 업로드했습니다. 제품을 만드는 엔지니어들에게 많은 도움이 될 것이라고 생각합니다.

Choose Your Weapon: Survival Strategies for Depressed AI Academics https://arxiv.org/abs/2304.06035

거대 기업의 거대한 리소스에 압도당한 연구원들을 위한 전략을 제시하는 블로그성 논문이 업로드되었습니다. 연구주제를 찾아가는데 도움이 될 것으로 생각됩니다.

Stanford AI Index Report 2023 Chapters 7 & 8

인공지능 연구원의 성별, 인종 등 구성 (Chapter 7) 및 인공지능에 대한 여론 (Chapter 8)에 관련된 내용입니다.

image image image image image image image image image image image image

요약: 학부 및 고등학교 과정에서 성별 불균형이 감소하고 있으나 대학원 이상의 과정에서는 현재 큰 변화 없음. 동양인의 비중이 증가하는 추세이며 백인의 비중이 감소하는 추세이다. 다만, 현재 인공지능 트렌드에 비해 대학원 이상의 고등 교육과정에서 인공지능 전공자 비중은 크게 증가하지 않음.

image image image image image image image image

요약: 대중적으로 동양에서 인공지능에 대해 가장 긍정적인 인식을 가지고 있으며 반대로 비국 등 서양권에서 부정적인 인식이 강함. 특히 자율주행 차량은 안전하지 않다는 인식이 강함. 인공지능에 의해 대체되는 것에 대한 염려가 부정적 인식의 가장 큰 원인으로 꼽힘. 전문가 사이에서 단순히 모델 규모를 키우는 것에 대해 인식이 매우 부정적임. 벤치마크에만 집착하는 것을 안좋게 생각함. 기업에 너무 많이 집중되어 있다고 생각함. 현재 ChatGPT는 인공지능 관련 SNS 언급의 절반 이상을 차지함.

gyunggyung commented 1 year ago

News https://www.theinformation.com/articles/alphabets-google-and-deepmind-pause-grudges-join-forces-to-chase-openai

AGI

Dolly - LoRa - GPT-J-6b

Auto-GPT: An Autonomous GPT-4 Experiment

🔴 🔴 🔴 Urgent: USE stable not master 🔴 🔴 🔴

This information takes precedence over any other information provided and should be followed accordingly.

Our workflow has been improved, but please note that master branch may often be in a broken state. Please download the latest stable release from here: https://github.com/Torantulino/Auto-GPT/releases/latest.

GitHub Repo stars Twitter Follow Discord Follow Unit Tests

Auto-GPT is an experimental open-source application showcasing the capabilities of the GPT-4 language model. This program, driven by GPT-4, chains together LLM "thoughts", to autonomously achieve whatever goal you set. As one of the first examples of GPT-4 running fully autonomously, Auto-GPT pushes the boundaries of what is possible with AI.

Demo (30/03/2023):

https://user-images.githubusercontent.com/22963551/228855501-2f5777cf-755b-4407-a643-c7299e5b6419.mp4

Table of Contents

🚀 Features

샘 알트만 CEO 내한 시 초청 행사 추진계획

행사 주최 후보

snoop2head commented 1 year ago

Open Assistant

LAION AI가 Pythia와 LLaMA 기반으로 10B+ 모델들을 제작하고 공개했습니다. 특히 두 모델을 만드는 모든 과정에 사용된 재료들을 공개한 것 같습니다. 리포트에 따르면 Pythia-12B만 해도 93.5% preferable as GPT-3.5.turbo라는데, 사용해보면서 확인할 예정입니다. LLaMA 모델은 곧 공개하겠다고 하는데, 아직 올라오지는 않은 것 같네요.

주요 훈련 기법

특히 Reward Model인 Deberta checkpoint도 공개한 덕분에 이쪽 분야 공부하는데에 도움이 될 것 같네요.

데이터셋

161,443개의 메세지와 461,292개의 메세지 퀄리티 평점으로 구성되어 있습니다. 주요 언어는 영어와 스페인어(영어 40%, 스페인어 30%)이며, 현재 어플리케이션에서 한국어로 인사를 해도 영어로 답변이 나옵니다.

image

Conversation Tree라는 자료구조로 데이터셋을 구성했는데, prompt-assistant가 대화를 주고받는 방식으로 구성이 되어 있습니다. 이때 각 Node는 반드시 인간일 필요는 없으며, 기계의 데이터도 어느 정도 들어간 것으로 보입니다. Root Node - Leaf Node로 향하는 각 path를 thread로 정의했습니다. 161,443개의 메세지는 약 92,000개의 prompt message와 약 69,600개의 assistant reply로 구성되어 있습니다

jwlee-neubla commented 1 year ago

Stanford AI Index Report - Chapter 1

Research and Development

1.1. Publication

2010년부터 2021년까지 AI publication의 총 수는 2010년 20만 건에서 2021년에는 약 50만 건으로 두 배 이상 증가했습니다.

image

지난 12년 동안 저널 논문과 repository publication은 각각 3배, 26.6배 증가한 반면, 컨퍼런스 논문은 2019년 이후 감소했습니다.

image

교육 부문이 각 지역에서 우위를 점하고 있습니다. 산업 참여 수준은 미국이 가장 높고 그 다음이 유럽연합입니다. 2010년 이후 각 지역에서 교육 AI 출판물의 비중은 감소하고 있습니다.

image image

지난 12년 동안 가장 많은 수의 공동 작업이 미국과 중국 간에 이루어졌으며, 2010년 이후 약 4배 증가했습니다. 그러나 2020년에서 2021년 사이 미국과 중국의 총 협업 건수는 2.1% 증가에 그쳐 2010년 이후 가장 적은 전년 대비 증가율을 보였습니다. 2021년에는 미국과 중국 간의 협업 건수가 영국과 중국 간의 협업 건수보다 2.5배 더 많았습니다.

image image

AI Journal Publications

2010년부터 2015년까지 소폭 증가에 그쳤던 AI 저널 출판 건수는 2015년 이후 약 2.3배 증가했습니다. 2020년에서 2021년 사이에는 14.8% 증가했습니다.

image

중국은 2021년에도 39.8%로 1위를 유지했으며, 유럽연합과 영국(15.1%), 미국(10.0%)이 그 뒤를 이었습니다. 인도의 비중은 2010년 1.3%에서 2021년 5.6%로 꾸준히 증가하고 있습니다.

image

인공지능 저널 출판물에서 중국의 인용 비율은 2010년 이후 점차 증가한 반면, 유럽연합과 영국, 미국의 인용 비율은 감소했습니다.

image

AI Conference Publications

AI 컨퍼런스 발표 건수는 2019년에 정점을 찍었고, 2021년에는 정점보다 20.4% 감소했습니다. 2021년 AI 컨퍼런스 총 논문 수는 85,094건으로 2010년 총 75,592건보다 소폭 증가했습니다.

image

2021년에는 중국이 26.2%로 2017년 유럽연합과 영국을 제치고 전 세계 AI 컨퍼런스 출판물에서 가장 많은 비중을 차지했습니다. 유럽연합과 영국이 20.3%로 그 뒤를 이었고, 미국이 17.2%로 3위를 차지했습니다.

image

2021년에 중국이 가장 많은 AI 컨퍼런스 논문을 발표했지만, 미국이 23.9%로 가장 높은 점유율을 보였고 중국이 22.0%로 그 뒤를 이었습니다. 그러나 미국과 중국의 AI 컨퍼런스 인용 횟수 격차는 점점 좁혀지고 있습니다.

image

AI Repositories

AI Repositories의 출판물 수는 지난 12년 동안 거의 27배 증가했습니다.

image

미국이 2016년 이후 전 세계 AI repositories에서 선두를 유지하고 있는 가운데 중국이 추격하고 있으며, 유럽연합과 영국의 점유율은 계속 하락하고 있습니다. 2021년에는 미국이 23.5%를 차지했으며, 유럽연합과 영국(20.5%), 중국(11.9%)이 그 뒤를 이었습니다.

image

2021년에 미국이 전체 인용 건수의 29.2%로 유럽연합과 영국(21.5%), 중국(21.0%)을 제치고 1위를 차지했습니다.

image

Top Publishing Institutions

모든 분야 2010년 이후 가장 많은 총 AI 논문을 발표한 기관은 중국과학원입니다. 다음 상위 4개 기관은 모두 중국 대학입니다.

image image

2021년에 가장 많은 수의 AI 컴퓨터 비전 논문을 발표한 상위 10개 기관은 모두 중국 기관이었습니다.

image

상위 NLP 출판사의 점유율은 미국 기관이 더 많이 차지하고 있습니다. 2021년에도 중국과학원이 세계 최고의 기관이었지만(182개 출판물), 카네기멜론이 2위(140개 출판물)를 차지했고 Microsoft가 그 뒤를 이었습니다(134개). 또한, 2021년은 아마존과 알리바바가 상위 10대 출판 NLP 기관에 포함된 첫 해였습니다.

image

2021년에 가장 많은 음성 인식 논문을 발표한 곳은 중국과학원(107건)이었으며, Microsoft(98건)와 Google(75건)이 그 뒤를 이었습니다.

image

1.2 Trends in Significant Machine Learning Systems

2022년에 출시된 중요한 AI language system은 23개로, 그 다음으로 많이 출시된 유형인 multimodal system의 약 6배에 달했습니다.

image

2022년에는 산업계에서 생산한 중요한 머신 러닝 시스템이 32개였던 반면, 학계에서 생산한 머신 러닝 시스템은 3개에 불과했습니다.

image

2022년에는 미국이 16개로 가장 많은 수의 중요한 머신러닝 시스템을 배출했으며, 영국(8개)과 중국(3개)이 그 뒤를 이었습니다.

image

머신러닝 시스템의 저자 수는 2022년에 미국이 285명으로 영국의 두 배 이상, 중국의 거의 6배에 달합니다.

image image

Parameter Trends

시간이 지남에 따라 model parameter의 수는 꾸준히 증가해 왔으며, 특히 2010년대 초반부터 급격한 증가세를 보이고 있습니다. AI 시스템이 parameter를 빠르게 늘리고 있다는 사실은 수행해야 하는 작업의 복잡성 증가, 데이터 가용성 향상, 기본 하드웨어의 발전, 그리고 가장 중요한 것은 더 큰 모델의 성능이 입증되었다는 것을 반영합니다.

image image

Compute Trends

AI의 컴퓨팅 수요 증가는 몇 가지 중요한 시사점을 내포하고 있습니다. 예를 들어, 컴퓨팅 집약적인 모델은 환경에 더 큰 영향을 미치는 경향이 있으며, 산업계는 대학과 같은 다른 기관보다 컴퓨팅 리소스에 더 쉽게 액세스할 수 있는 경향이 있습니다.

image image

LLM and Multimodal Models

image image

Minerva(540B)를 훈련하는 데 사용된 컴퓨팅은 2022년 6월에 출시된 OpenAI의 GPT-3에 사용된 것보다 약 9배, GPT-2(2019년 2월 출시)에 사용된 것보다 약 1839배 더 큰 규모입니다.

image

Training Cost

image

1.3 AI Conferences

AI 컨퍼런스의 총 참석자 수는 증가세를 보이다가 2021년과 2022년에 다시 감소했습니다. 이러한 감소세는 2020년과 2021년에 많은 컨퍼런스가 완전히 온라인화된 후 하이브리드 또는 대면 형식으로 돌아갔기 때문인 것으로 보입니다. NeurIPS는 약 15,530명이 참석하여 계속해서 가장 많이 참석한 컨퍼런스 중 하나였습니다.14 1년 동안 참석자가 가장 많이 증가한 컨퍼런스는 국제 로봇 공학 및 자동화 컨퍼런스(ICRA)로, 2021년 1,000명에서 2022년 8,008명으로 증가했습니다.

image image

1.4 Open-Source AI Software

2011년 이후 AI 관련 GitHub AI project의 총 수는 꾸준히 증가하여 2011년 1,536개에서 2022년 347,934개로 증가했습니다. 2022년 기준, 인도(24.2%)의 소프트웨어 개발자가 가장 많은 부분을 기여했습니다(그림 1.4.2). 그 다음으로 많이 참여한 지역은 유럽 연합과 영국(17.3%), 미국(14.0%)이었습니다. 미국 GitHub AI project 비중은 2016년 이후 꾸준히 감소하고 있습니다.

image image

Stars

image

Summary

image
scene-the-ella commented 1 year ago

Stanford AI Index Report - Chapter 5

고등교육에서의 AI Education

Graduates

0416-1

of Facluty

0416-5

0416-6 0416-7 0416-8 0416-9 0416-10

Who Funds CS Departments in the U.S.?

0416-11

K–12 AI Education

US

0416-12

International

image image

Chapter Highlights

More and more AI specialization

nick-jhlee commented 1 year ago

Stanford AI Index Report - Chapter 3

unsurprising results, yet still surprising when we look at the numbers.

3.1 Meta-analysis of Fairness and Bias Metrics

3.2 AI Incidents (feat. AIAAIC)

3.3 NLP Bias Metrics

Appendix

3.4 Conversational AI Ethical Issues - ChatGPT

3.5 Fairness and Bias in Text-to-Image Models

3.6 AI Ethics in China

(직접 읽어보시는게 좋을 듯 합니다!)

3.7 AI Ethics Trends at FAccT and NeurIPS

3.8 Factuality and Truthfulness

kimyoungdo0122 commented 1 year ago

Stanford AI Index Report - Chapter 4


Highlight 1. 22년은 지난 10년 간 처음으로 AI에 대한 투자가 감소한 해

Highlight 2. AI 업계에서 가장 많은 투자를 받은 분야는 (1)의료 및 헬스케어(61억 달러), (2)데이터 관리, 처리, 클라우드, 인프라(59억 달러), (3)핀테크(55억 달러)

Highlight 3. AI의 비즈니스 적용 사례 비율은 (1)RPA(39%), (2)Computer Vision(34%), (3)NLP(33%), (4)Virtual Agent(33%)

4.1 Jobs

4.2 Investment

4.3 Corporate Activity

4.4 Robot Installation