jungwoo-ha / WeeklyArxivTalk

[Zoom & Facebook Live] Weekly AI Arxiv 시즌2
973 stars 41 forks source link

[20230212] Weekly AI ArXiv 만담 시즌2 - 5회차 #71

Open scene-the-ella opened 1 year ago

jungwoo-ha commented 1 year ago

News

ArXiv

ghlee3401 commented 1 year ago

Arxiv

veritas9872 commented 1 year ago

HuggingFace PEFT:

Blog: https://huggingface.co/blog/peft GitHub: https://github.com/huggingface/blog

HuggingFace에서 Parameter-Efficient Fine-Tuning을 위한 새로운 라이브러리를 공개했습니다. 기존 LLM을 특정 task를 위해 fine tuning을 진행하기 위해서는 메모리로 인해 학습이 어려웠는데 HuggingFace ecosystem과 호환되는 라이브러리를 통해 대부분의 parameter를 freeze한 채로 fine-tuning하는 작업을 진행할 때 메모리 사용량을 크게 낮추어 학교에서도 사용할 수 있는 11GB GPU에서도 LoRA와 같은 3Billion 모델을 간편하게 학습할 수 있도록 합니다. 리소스가 충분하지 않은 많은 연구원에게 LLM을 접근하기 쉽게 한다는데 의의가 있다고 생각됩니다.

예시 코드:

  from transformers import AutoModelForSeq2SeqLM
+ from peft import PeftModel, PeftConfig

  peft_model_id = "smangrul/twitter_complaints_bigscience_T0_3B_LORA_SEQ_2_SEQ_LM"
  config = PeftConfig.from_pretrained(peft_model_id)
  model = AutoModelForSeq2SeqLM.from_pretrained(config.base_model_name_or_path)
+ model = PeftModel.from_pretrained(model, peft_model_id)
  tokenizer = AutoTokenizer.from_pretrained(config.base_model_name_or_path)

  model = model.to(device)
  model.eval()
  inputs = tokenizer("Tweet text : @HondaCustSvc Your customer service has been horrible during the recall process. I will never purchase a Honda again. Label :", return_tensors="pt")

  with torch.no_grad():
      outputs = model.generate(input_ids=inputs["input_ids"].to("cuda"), max_new_tokens=10)
      print(tokenizer.batch_decode(outputs.detach().cpu().numpy(), skip_special_tokens=True)[0])
# 'complaint'

Attending to Graph Transformers:

ArXiv: https://arxiv.org/abs/2302.04181v1 GitHub: https://github.com/luis-mueller/probing-graph-transformers

image

Graph Transformer에 대한 리뷰 및 기존 GNN과의 차이점에 대한 주장에 대한 실험이 섞인 독특한 논문입니다.

Graph Transformer는 positional embedding을 통해서 graph connectivity를 주입하는데 다른 encoding 방법에 대한 비교, 그리고 기존 GNN과 비교했을 때 Graph의 구조를 이해할 수 있는 능력, 그리고 oversmoothing을 극복할 수 있는지 등에 대해 비교합니다.

image

A Categorical Archive of ChatGPT Failures: ArXiv: https://arxiv.org/abs/2302.03494

ChatGPT/LLM error tracker: https://garymarcus.substack.com/p/large-language-models-like-chatgpt

ChatGPT의 오류가 대두되면서 여러 종류를 분석한 논문입니다. 공유드린 블로그에서 영감을 얻었다는데 비전문가에게 설명할 때 좋은 자료라고 생각됩니다.

image

Mnemosyne: Learning to Train Transformers with Transformers: ArXiv: https://arxiv.org/abs/2302.01128 Blog: https://sites.google.com/view/mnemosyne-opt

Learning to learn 계통에서 linear transformer를 사용하는 것에 관한 논문입니다. 실용성은 상대적으로 떨어지지만 현재 학습하는 것처럼 특정 optimizer를 heuristic하게 정하는 것보다 teacher network를 학습해 optimizer의 역할을 하게 하고 target network의 gradient를 제공받았을 때 학습된 network의 결과에 따라 parameter update를 진행합니다. 해당 논문에서는 MNIST에서 MLP student에 대해 meta-training을 진행한 Performer를 Vision Transformer 모델의 CIFAR 학습에 사용했을때에도 우수한 성능을 보인다는 것을 보여줍니다.

image
dhlee347 commented 1 year ago

ChatGPT Is a Blurry JPEG of the Web (9 Feb, 2023)

https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web

Data Selection for Language Models via Importance Resampling (6 Feb, 2023, https://arxiv.org/abs/2302.03169)

A Categorical Archive of ChatGPT Failures (6 Feb, 2023, https://arxiv.org/abs/2302.03494)

Theory of Mind(ToM) May Have Spontaneously Emerged in Large Language Models (4 Feb, 2023, https://arxiv.org/abs/2302.02083)

jwlee-ml commented 1 year ago

State of the AI Report 2022

Industry

  1. Do upstart AI chip companies still have a chance vs. NVIDIA’s GPU? NVIDIA 2021년 매출은 106억 달러, 4분기에만 32억 6천만 달러이며 이것은 연간 기준으로 상위 3개 AI 반도체 스타트업의 기업가치를 합친 것보다 많습니다

    image

    GPU는 ASIC보다 131배 더 많이 사용되며, Graphcore, Habana, Cerebras, SambaNova, Cambricon의 칩을 합친 것보다 90배 더 많이 사용되고, Google의 TPU보다 78배 더 많이 사용되며, FPGA보다 23배 더 많이 사용됩니다.

    image

2017년에 출시된 V100은 NVIDIA의 주력 칩이며, 2020년에 출시된 A100이 그 뒤를 잇고 있습니다. 2022년에는 H100이 출시될 예정입니다. 주요 AI 칩 도전자 중 그래프코어가 가장 자주 언급됩니다.

image

400억 달러로 발표되었던 NVIDIA의 Arm 인수 시도는 지정학적 문제와 경쟁사의 반발로 인해 실패로 돌아갔습니다. 그럼에도 불구하고 NVIDIA의 기업 가치는 이 기간 동안 2950억 달러가 증가했습니다.

image
  1. 하이퍼스케일러와 챌린저 AI 컴퓨팅 제공업체들은 주요 AI 컴퓨팅 파트너십을 체결하고 있으며, 특히 Microsoft가 OpenAI에 10억 달러를 투자한 것을 주목할 만합니다. 앞으로 더 많은 투자가 있을 것으로 예상됩니다.

    image
  2. 기업들은 국가 슈퍼컴퓨터보다 더 큰 슈퍼컴퓨터를 구축합니다. "가장 큰 컴퓨터를 가진 사람에게 가장 많은 혜택이 돌아갈 것으로 생각합니다." - Greg Brockman, OpenAI CTO

    image
  3. AI 분야에서 정부 계약의 복합적 효과 1962년 미국 정부는 전 세계의 모든 집적 회로를 구입하여 이 기술과 최종 시장의 개발을 강화했습니다. 일부 정부는 AI 기업을 위한 "최초의 구매자"로서 그 기회를 다시 제공하고 있습니다. 고유한 고품질 데이터에 액세스할 수 있는 기업은 소비자 또는 엔터프라이즈 AI 소프트웨어를 구축하는 데 있어 우위를 점할 수 있습니다.

    image
  4. 메타가 2022년 8월에 무료로 공개적으로 사용할 수 있는 블렌더봇3 챗봇을 출시했을 때, 이 챗봇이 잘못된 정보를 뱉어내 언론의 뭇매를 맞았습니다. 한편, 2021년 5월에 챗봇 LaMDA에 대한 논문을 발표했던 구글은 이 시스템을 사내에 유지하기로 결정했습니다. 하지만 블렌더봇이 출시된 지 몇 주 후, 구글은 일반 사용자들이 LaMDA를 포함한 구글의 최신 AI 에이전트와 상호작용할 수 있는 'AI 테스트 키친'이라는 대규모 이니셔티브를 발표했습니다.

    • 구글과 페이스북의 10억 명 이상의 사용자에게 AI 시스템을 대규모로 공개하는 것은 우연이건 적대적인 질의에 의해서건 이러한 시스템의 모든 윤리 또는 안전 문제가 드러날 수밖에 없습니다. 하지만 이러한 시스템을 널리 공개해야만 이러한 문제를 해결하고 사용자 행동을 이해하며 유용하고 수익성 있는 시스템을 만들 수 있습니다.
    • 이러한 딜레마에서 벗어나고자 LaMDA를 소개하는 논문의 저자 중 4명은 "혁신적인 개방형 대화형 애플리케이션을 만드는 AI 회사"라고 스스로를 소개하는 Character.AI를 설립/합병했습니다.
  5. 티어 1 AI 연구소의 인재들이 독립하여 기업가로 거듭나고 있습니다. 졸업생들은 AGI, AI 안전, 생명공학, 핀테크, 에너지, 개발 도구 및 로봇 공학 분야에서 일하고 있습니다. 트랜스포머 기반 신경망을 소개한 획기적인 논문의 저자 중 한 명을 제외하고는 모두 구글을 떠나 AGI, 대화형 에이전트, AI 우선 생명공학 및 블록체인 분야에서 스타트업을 설립했습니다.

image image
  1. AI 코딩 어시스턴트가 빠르게 배포되고 개발자 생산성 향상에 대한 초기 징후가 나타나고 있습니다. OpenAI의 Codex는 연구(2021년 7월)에서 상용화(2022년 6월)로 빠르게 발전하여 현재 월 10달러 또는 연간 100달러에 공개적으로 사용할 수 있는 (마이크로소프트의) GitHub Copilot을 출시했습니다. 아마존은 2022년 6월에 CodeWhisperer를 프리뷰 버전으로 발표하며 그 뒤를 따랐습니다. 구글은 내부적으로 머신러닝 기반 코드 완성 도구를 사용하고 있다고 밝혔습니다.

  2. 2020년 0개에서 18개로 늘어난 AI 우선 신약 개발 기업의 임상시험 수 초기 발견 단계에 있는 자산은 더 많습니다. 2023년부터는 초기 임상시험 결과가 나올 것으로 예상됩니다.

    image

하지만 2011년부터 2020년까지 6,151건의 성공적인 임상시험 단계 전환에 대한 연구에 따르면 의약품이 규제 당국의 승인을 받는 데 평균 10.5년이 걸리는 것으로 나타났습니다. 여기에는 임상 1상 2.3년, 임상 2상 3.6년, 임상 3상 3.3년, 규제 단계 1.3년이 포함됩니다. 또한 임상시험에 환자 한 명을 모집하는 데 평균 6.5만 달러가 소요됩니다. 결국 30%의 환자가 규정 미준수로 인해 중도 탈락하므로, 전체 모집 비용은 환자당 19.5만 달러에 육박합니다. AI는 더 나은 약을 더 빨리 개발할 수 있다고 약속하지만, 현재 임상시험의 물리적 병목현상을 해결해야 합니다.

mRNA 백신의 선두주자인 BioNTech와 엔터프라이즈 AI 기업인 InstaDeep은 고위험 변종을 예측하기 위해 조기 경보 시스템(EWS)을 공동으로 구축하고 검증했습니다. EWS는 공식적으로 지정되기 평균 1개월 반 전에 WHO가 지정한 16가지 변종을 모두 식별할 수 있었습니다. 빨간색 점선은 EWS가 해당 변종이 고위험이라고 예측한 날짜를, 녹색 점선은 WHO가 해당 변종을 지정한 날짜를 나타냅니다. 거의 모든 경우에서 EWS는 WHO 지정 몇 달 전에 경고를 보냈습니다.

image
  1. 대학은 Databricks, Snorkel, SambaNova, Exscientia 등 AI 기업의 중요한 원천입니다. 영국에서는 영국 전체 기업의 0.03%에 비해 4.3%의 AI 기업이 대학에서 스핀아웃된 기업입니다. AI는 실제로 스핀아웃이 가장 많이 형성되는 분야 중 하나입니다.

    image
  2. 2022년, AI를 사용하는 스타트업에 대한 투자는 시장 확대와 함께 둔화되었습니다. AI를 사용하는 민간 기업의 2022년 투자액은 작년 대비 36% 감소*할 것으로 예상되지만, 여전히 2020년 수준을 상회할 것으로 예상됩니다. 이는 전 세계 모든 스타트업 및 스케일업에 대한 투자와 비슷한 수준입니다.

    image

VC 투자 감소는 1억 달러 이상의 라운드에서 가장 두드러지는 반면, 소규모 라운드는 2022년 말까지 전 세계적으로 309억 달러에 달할 것으로 예상되며, 이는 2021년 수준과 거의 비슷한 수준입니다.

image

미국이 AI 유니콘 수 1위, 중국과 영국이 그 뒤를 잇고 있습니다. 미국은 292개의 AI 유니콘을 탄생시켰으며, 총 기업 가치는 4조 6천억 달러에 달합니다.

image

AI를 사용하는 미국 기반 스타트업 및 스케일업에 대한 투자가 크게 감소했지만, 여전히 전 세계 AI 투자의 절반 이상을 차지하고 있습니다.

image

엔터프라이즈 소프트웨어는 전 세계적으로 가장 많은 투자를 받은 분야이며, 로보틱스는 AI에 대한 VC 투자에서 가장 큰 비중을 차지하고 있습니다.

image

기업공개(IPO)와 스팩(SPAC) 기업공개 건수는 급격히 감소했지만, 인수 건수는 2021년 수준을 초과할 것으로 예상됩니다.

image

Predictions

9 predictions for the next 12 months

  1. A 10B parameter multimodal RL model is trained by DeepMind, an order of magnitude larger than Gato.
  2. NVIDIA announces a strategic relationship with an AGI focused organisation.
  3. A SOTA LM is trained on 10x more data points than Chinchilla, proving data-set scaling vs. parameter scaling
  4. Generative audio tools emerge that attract over 100,000 developers by September 2023.
  5. GAFAM invests >$1B into an AGI or open source AI company (e.g. OpenAI).
  6. Reality bites for semiconductor startups in the face of NVIDIA’s dominance and a high profile start-up is shut down or acquired for <50% of its most recent valuation.
  7. A proposal to regulate AGI Labs like Biosafety Labs gets backing from an elected UK, US or EU politician.
  8. >$100M is invested in dedicated AI Alignment organisations in the next year as more people become aware of the risk we are facing by letting AI capabilities run ahead of safety.
  9. A major user generated content side (e.g. Reddit) negotiates a commercial settlement with a start-up producing AI models (e.g. OpenAI) for training on their corpus of user generated content.
jungwoo-ha commented 1 year ago

중국 첫 AI 챗봇, 사흘만에 서비스 중단 이유