jungwoo-ha / WeeklyArxivTalk

[Zoom & Facebook Live] Weekly AI Arxiv 시즌2
973 stars 41 forks source link

[20230402] Weekly AI ArXiv 만담 시즌2 - 12회차 #78

Open jungwoo-ha opened 1 year ago

jungwoo-ha commented 1 year ago

News

ArXiv

gyunggyung commented 1 year ago

![Uploading 그림1.png…]()

빌 게이츠 이야기

image

이제 누구도 인공지능의 발전을 막을 수 없습니다. 그가 다시 열정을 찾은 거 같습니다. 이제 누구도 AGI를 막을 수 없습니다. 자동차 금지 법을 만들면 중국에 가겠죠. 그럼 세계 패권을 뺐기는 건데, 나라가 계산기 금지 법을 만들까? 인공지능의 시대가 시작되었습니다.

인공 지능은 휴대폰과 인터넷 만큼이나 혁신적인 기술입니다. By 빌 게이츠 | 2023년 3월 21일 14분 읽기 https://www.facebook.com/groups/583445217086296/permalink/584230357007782/

AGI

image 오랜만에 논문 리뷰로 돌아왔습니다. 오늘 내용은 모두 주목해주시길 바랍니다.

텍스트, 이미지, 비디오를 처리할 수 있는 모델들입니다. Flamingo는 2022년에 나온 비디오 까지 처리할 수 있는 모델이며, KOSMOS-1은 GPT-4라고 생각해도 됩니다. 공식적으로는 오디오 및 비디오 처리가 안 되나 약간 수정을 하면 사용 가능할 것으로 보입니다. https://www.facebook.com/groups/6129390073749513/permalink/6200063456682174/

잡다한 것들

다들 하나 씩 하자가 있어서 각자 좋은 부분을 뽑아 써야 합니다.

소설 양자 컴퓨팅을 활용한 GPT-5: 초대규모 언어 모델의 성능 향상과 인공 일반 지능의 구현

요약: 본 논문에서는 양자 컴퓨터를 활용하여 개발한 새로운 AI 언어 모델인 GPT-5에 대해 소개한다. GPT-5는 파라미터 1000조개를 사용하여 모든 PPT, Word, Excel 등 사용자 데이터와 유튜브를 포함한 인터넷의 모든 정보를 학습하였다. 이를 통해 인공 일반 지능(AGI)를 구현하였으며, 대통령 수준의 의사결정 능력을 보여주었다. 이 논문의 탁월한 성과로 인해 튜닝상과 노벨상 동시 수상이 기대된다. 개발 비용은 약 7조 달러에 이른다.

  1. 서론 AI 언어 모델의 발전 과정과 GPT 시리즈의 역사 GPT-5의 목표와 기대되는 성능 혁신 인공 일반 지능(AGI) 분야에서의 돌파구

  2. 데이터 수집 및 전처리 PPT, Word, Excel 등 사용자 데이터와 유튜브 포함 인터넷의 모든 정보 학습 데이터 수집 원천 및 처리 과정 편향성과 편견을 최소화하기 위한 데이터 전처리 및 샘플링 방법

  3. 양자 컴퓨터를 활용한 학습 양자 컴퓨터의 원리 및 장점 양자 컴퓨팅을 활용한 GPT-5 모델 학습의 효율성 양자 알고리즘을 통한 최적화 및 일반화 성능 향상 전략

  4. 모델 구조 및 훈련 방법 GPT-5의 아키텍처 및 파라미터 1000조개의 구성 훈련 방법 및 양자 컴퓨팅 자원 활용 양자 알고리즘을 통한 최적화 및 일반화 성능 향상을 위한 전략 훈련 방법 및 컴퓨팅 자원에 대한 설명 최적화 알고리즘 및 일반화 성능 향상을 위한 전략

  5. 성능 평가 및 분석 인공 일반 지능 평가를 위한 All2All AGI 테스트 진행 대통령 수준의 의사결정 능력 평가 및 성능 비교 특정 도메인에서의 편향성과 편견을 평가하기 위한 실험 설계 및 결과 데이터셋 크기 및 구성에 대한 고찰

  6. 응용 사례 및 논의 대통령 수준의 의사결정 능력을 갖춘 GPT-5의 다양한 분야 활용 방안 정치: 정책 결정 및 국제 협상 지원 경제: 경제 발전 전략 수립 및 재정 관리 최적화 사회복지: 사회문제 해결을 위한 정책 개발 및 시민들의 요구 분석 교육: 교육 정책 및 커리큘럼 개발, 개별 학습 계획 지원 환경: 지속 가능한 발전 전략 및 환경 보호 정책 제안 국방: 안보 정책 및 위기 대응 전략 수립 지원 GPT-5의 한계점 및 개선 방안에 대한 논의 데이터 편향 및 편견 문제 높은 개발 비용과 자원 소모 인공 지능의 윤리적, 법적 책임 이러한 대규모 언어 모델의 사회적 영향과 윤리적 고려 사항 기술의 민주적 분배 및 접근성 확대 개인정보 보호 및 데이터 활용에 대한 가이드라인 마련 인공 지능과 인간의 협업을 통한 미래 사회 비전 제시

  7. 결론 GPT-5의 개발과 성과에 대한 요약 인공 일반 지능(AGI) 구현의 가능성 및 그 한계에 대한 고찰 앞으로의 연구 방향 및 기대되는 사회적 변화에 대한 전망

  8. 참고문헌 [1] Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. [2] Brown, T. B., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. arXiv preprint arXiv:2005.14165. [3] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention is All you Need. Advances in Neural Information Processing Systems, 30, 5998-6008. [4] Nielsen, M. A., & Chuang, I. L. (2010). Quantum Computation and Quantum Information: 10th Anniversary Edition. Cambridge University Press. [5] Shor, P. W. (1994). Algorithms for Quantum Computation: Discrete Logarithms and Factoring. Proceedings 35th Annual Symposium on Foundations of Computer Science, 124-134. [6] Grover, L. K. (1996). A Fast Quantum Mechanical Algorithm for Database Search. Proceedings of the 28th Annual ACM Symposium on the Theory of Computing, 212-219. [7] https://www.nature.com/articles/nature14539

이 논문에서 제시된 GPT-5 모델은 양자 컴퓨팅을 활용하여 인공 일반 지능(AGI)에 한 걸음 더 다가갔으며, 대통령 수준의 의사결정 능력을 보여주었다. 이러한 연구 성과는 기존의 인공지능 기술 발전에 중요한 영향을 미칠 것으로 예상되며, 앞으로의 연구 방향과 기대되는 사회적 변화에 대한 전망이 기대된다.

가짜 뉴스 조심 https://www.linkedin.com/posts/activity-7048199313591599104-_kn7?utm_source=share&utm_medium=member_desktop

ghlee3401 commented 1 year ago

Arxiv

  1. ASR
    • Text is All You Need: Personalizing ASR Models using Controllable Speech Synthesis
    • ICASSP 2023
    • 개인화된 데이터(personalized data)의 부족으로 인하여 일반적인 ASR 모델을 특정 개인을 위해 사용하는 것이 어려움
    • 첫 번째 질문으로 synthetic data를 이용하여 ASR을 모델을 학습하면 성능이 좋아지는가? 에 대해서는 4개츼 벤치마크 데이커 셋에 대하여 확인했을 때 좋아지는 것을 확인하였음
    • 두 번째 질문으로 왜 synthetic data를 사용하면 좋아지는가? 에 대해서 style이 아니라 content가 speaker adaptation에서 중요하다는 것을 확인하였음
    • 결과적으로 개인화 된 ASR 모델을 위하여 speech content를 기반으로 한 데이터를 선택하는 것을 제안

    • Table 1
      • 카테고리 1 : (style O, text O) global data의 speaker의 스타일과 target speaker의 text로 global dataset에 잘 나타나는 dataset
      • 카테고리 2 : (style X, text O) global data에 잘 나타나지 않는 speaker 스타일과 target speaker의 text 로 만들어지는 dataset
      • 카테고리 3 : (style O, text X) global data에 잘 나타나는 speaker 스타일이과 global data와 다른 target speaker의 text로 만들어지는 dataset
      • 카테고리 4 : (style X, text X) global data에 잘 나타나지 않는 speaker style과 text로 만들어지는 dataset
      • 네 개의 세팅에 대하여 모두 synthetic dataset을 사용한 것이 좋지만, 카테고리 1은 별로 도움이 안됨
      • 즉, target speaker가 global data에 잘 나타나지 않을 때 synthetic data를 사용하는 것이 도움이 된다. 땅땅!

    • Table 2
      • target dataset만 이용한 2번 보다 3번의 성능이 더 좋은 것을 확인할 수 있다.
      • 여기서 3, 4, 5 의 경우 text를 target domain의 text를 샘플링하여 만들어진다.
      • 4, 5번은 텍스트는 그대로 두고 스타일만 바꾸어서 fine-tune을 한 결과인데 크게 성능이 저하 되지 않는 걸 확인할 수 있다.
      • 6, 7번은 텍스트를 다르게 해서 추가를 한 경우인데 4, 5 번과 비교하여 성능이 크게 떨어지는 것을 확인할 수 있다.
      • 즉, Personalized ASR fintuning에서 사용하는 합성 음성에서 중요한 것은 다양한 스타일이 아니라 text가 가장 중요하다!

  2. TTS
  3. Audio Captioning
  4. Others
veritas9872 commented 1 year ago

뉴스:

image

ChatGPT와 같은 거대 LLM의 학습을 6개월 중단할 것을 주장하는 공개 선언이 발표되어 많은 논란과 비판을 낳고 있습니다. Elon Musk, Yoshua Bengio (???!!!) 등 유명인사가 서명하여 논쟁이 불거졌습니다. https://futureoflife.org/open-letter/pause-giant-ai-experiments

이탈리아에서 ChatGPT가 금지되었다고 합니다. 처음에는 만우절 농담으로 생각했는데 사실이었습니다... https://www.bbc.com/news/technology-65139406

연구:

Whose Opinions Do Language Models Reflect? ArXiv: https://arxiv.org/abs/2303.17548 GitHub: https://github.com/tatsu-lab/opinions_qa

image

인공지능 윤리 관련 연구가 Stanford에서 나왔습니다. 인공지능 챗봇의 사회적 역할이 커지면서 매우 중요한 이슈라고 생각되고 저도 전에 관련해서 발표했기 때문에 보다 더 많은 고민이 필요하다고 생각됩니다.

BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects Blog: https://bundlesdf.github.io ArXiv: https://arxiv.org/abs/2303.14158

Sigmoid Loss for Language Image Pre-Training ArXiv: https://arxiv.org/abs/2303.15343

image

Training Language Models with Language Feedback at Scale ArXiv: https://arxiv.org/abs/2303.16755

image image

Robotics 관련 연구가 이번주에 많이 나왔습니다.

Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware Blog: https://tonyzhaozh.github.io/aloha Paper: https://tonyzhaozh.github.io/aloha/aloha.pdf

Robots that learn from videos of human activities and simulated interactions Blog: https://ai.facebook.com/blog/robots-learning-video-simulation-artificial-visual-cortex-vc-1/

gyunggyung commented 1 year ago

Yoshua Bengio는 사칭 아닌가요?