jungwoo-ha commented 1 year ago

News

AI미래포럼-금융분과웨비나: 초거대 AI 시대의 금융, 상상과 현실
- 4월 4일 오전 10시
- 미래에셋, KPMG, KB은행 등
LLM 블랙박스 Training 혹은 dataset distillation 은 (상대적으로) 작은 모델의 instruction 러닝을 위한 대세?
Google Research Yi Tay의 퇴사 & Reka 창업
- Yi Tay 의 Google Scholar
Twitter 추천코드 대방출

ArXiv

TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs
- ChatGPT Plugin의 형상 Position paper (from MSRA)
- We introduce TaskMatrix.AI as a new AI ecosystem that connects foundation models with millions of APIs for task completion.
- Contributions
- TaskMatrix.AI can perform both digital and physical tasks
- TaskMatrix.AI has an API platform as a repository of various task experts.
- TaskMatrix.AI has a powerful lifelong learning ability.
- TaskMatrix.AI has better interpretability for its responses.
- Action = MCFM (모델, APIs, 사용자 instruction, Contexts)
- 몇가지 예시: Visual ChatGPT 중심 이미지기반 대화, Office 연동, IoT device control 등

gyunggyung commented 1 year ago

![Uploading 그림1.png…]()

빌 게이츠 이야기

이제 누구도 인공지능의 발전을 막을 수 없습니다. 그가 다시 열정을 찾은 거 같습니다. 이제 누구도 AGI를 막을 수 없습니다. 자동차 금지 법을 만들면 중국에 가겠죠. 그럼 세계 패권을 뺐기는 건데, 나라가 계산기 금지 법을 만들까? 인공지능의 시대가 시작되었습니다.

인공 지능은 휴대폰과 인터넷 만큼이나 혁신적인 기술입니다. By 빌 게이츠 | 2023년 3월 21일 14분 읽기 https://www.facebook.com/groups/583445217086296/permalink/584230357007782/

AGI

오랜만에 논문 리뷰로 돌아왔습니다. 오늘 내용은 모두 주목해주시길 바랍니다.

텍스트, 이미지, 비디오를 처리할 수 있는 모델들입니다. Flamingo는 2022년에 나온 비디오 까지 처리할 수 있는 모델이며, KOSMOS-1은 GPT-4라고 생각해도 됩니다. 공식적으로는 오디오 및 비디오 처리가 안 되나 약간 수정을 하면 사용 가능할 것으로 보입니다. https://www.facebook.com/groups/6129390073749513/permalink/6200063456682174/

잡다한 것들

다들 하나 씩 하자가 있어서 각자 좋은 부분을 뽑아 써야 합니다.

https://notebooksf.jarvislabs.ai/BuOu_VbEuUHb09VEVHhfnFq4-PMhBRVCcfHBRCOrq7c4O9GI4dIGoidvNf76UsRL/
mlfoundations/open_flamingo: An open-source framework for training large multimodal models - https://github.com/mlfoundations/open_flamingo
Lightning-AI/lit-llama: Implementation of the LLaMA language model based on nanoGPT. Supports quantization, LoRA fine-tuning, pre-training. Apache 2.0-licensed. - https://github.com/Lightning-AI/lit-llama
https://github.com/daochenzha/data-centric-AI
정말 미친듯이 빠른 시대입니다. FastChat 대규모 언어 모델 기반 챗봇을 훈련, 서비스 및 평가하기 위한 개방형 플랫폼입니다. 출시 비쿠나를 출시했습니다: 90% ChatGPT 품질로 GPT-4를 능가하는 오픈 소스 챗봇을 출시했습니다. 블로그 게시물과 데모를 확인하세요. https://github.com/lm-sys/FastChat/raw/main/assets/demo-narrow.gif Discord 서버에 가입하고 트위터를 팔로우하여 최신 업데이트를 받아보세요. https://github.com/lm-sys/FastChat

소설 양자 컴퓨팅을 활용한 GPT-5: 초대규모 언어 모델의 성능 향상과 인공 일반 지능의 구현

요약: 본 논문에서는 양자 컴퓨터를 활용하여 개발한 새로운 AI 언어 모델인 GPT-5에 대해 소개한다. GPT-5는 파라미터 1000조개를 사용하여 모든 PPT, Word, Excel 등 사용자 데이터와 유튜브를 포함한 인터넷의 모든 정보를 학습하였다. 이를 통해 인공 일반 지능(AGI)를 구현하였으며, 대통령 수준의 의사결정 능력을 보여주었다. 이 논문의 탁월한 성과로 인해 튜닝상과 노벨상 동시 수상이 기대된다. 개발 비용은 약 7조 달러에 이른다.

서론 AI 언어 모델의 발전 과정과 GPT 시리즈의 역사 GPT-5의 목표와 기대되는 성능 혁신 인공 일반 지능(AGI) 분야에서의 돌파구
데이터 수집 및 전처리 PPT, Word, Excel 등 사용자 데이터와 유튜브 포함 인터넷의 모든 정보 학습 데이터 수집 원천 및 처리 과정 편향성과 편견을 최소화하기 위한 데이터 전처리 및 샘플링 방법
양자 컴퓨터를 활용한 학습 양자 컴퓨터의 원리 및 장점 양자 컴퓨팅을 활용한 GPT-5 모델 학습의 효율성 양자 알고리즘을 통한 최적화 및 일반화 성능 향상 전략
모델 구조 및 훈련 방법 GPT-5의 아키텍처 및 파라미터 1000조개의 구성 훈련 방법 및 양자 컴퓨팅 자원 활용 양자 알고리즘을 통한 최적화 및 일반화 성능 향상을 위한 전략 훈련 방법 및 컴퓨팅 자원에 대한 설명 최적화 알고리즘 및 일반화 성능 향상을 위한 전략
성능 평가 및 분석 인공 일반 지능 평가를 위한 All2All AGI 테스트 진행 대통령 수준의 의사결정 능력 평가 및 성능 비교 특정 도메인에서의 편향성과 편견을 평가하기 위한 실험 설계 및 결과 데이터셋 크기 및 구성에 대한 고찰
응용 사례 및 논의 대통령 수준의 의사결정 능력을 갖춘 GPT-5의 다양한 분야 활용 방안 정치: 정책 결정 및 국제 협상 지원 경제: 경제 발전 전략 수립 및 재정 관리 최적화 사회복지: 사회문제 해결을 위한 정책 개발 및 시민들의 요구 분석 교육: 교육 정책 및 커리큘럼 개발, 개별 학습 계획 지원 환경: 지속 가능한 발전 전략 및 환경 보호 정책 제안 국방: 안보 정책 및 위기 대응 전략 수립 지원 GPT-5의 한계점 및 개선 방안에 대한 논의 데이터 편향 및 편견 문제 높은 개발 비용과 자원 소모 인공 지능의 윤리적, 법적 책임 이러한 대규모 언어 모델의 사회적 영향과 윤리적 고려 사항 기술의 민주적 분배 및 접근성 확대 개인정보 보호 및 데이터 활용에 대한 가이드라인 마련 인공 지능과 인간의 협업을 통한 미래 사회 비전 제시
결론 GPT-5의 개발과 성과에 대한 요약 인공 일반 지능(AGI) 구현의 가능성 및 그 한계에 대한 고찰 앞으로의 연구 방향 및 기대되는 사회적 변화에 대한 전망
참고문헌 [1] Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. [2] Brown, T. B., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. arXiv preprint arXiv:2005.14165. [3] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention is All you Need. Advances in Neural Information Processing Systems, 30, 5998-6008. [4] Nielsen, M. A., & Chuang, I. L. (2010). Quantum Computation and Quantum Information: 10th Anniversary Edition. Cambridge University Press. [5] Shor, P. W. (1994). Algorithms for Quantum Computation: Discrete Logarithms and Factoring. Proceedings 35th Annual Symposium on Foundations of Computer Science, 124-134. [6] Grover, L. K. (1996). A Fast Quantum Mechanical Algorithm for Database Search. Proceedings of the 28th Annual ACM Symposium on the Theory of Computing, 212-219. [7] https://www.nature.com/articles/nature14539

이 논문에서 제시된 GPT-5 모델은 양자 컴퓨팅을 활용하여 인공 일반 지능(AGI)에 한 걸음 더 다가갔으며, 대통령 수준의 의사결정 능력을 보여주었다. 이러한 연구 성과는 기존의 인공지능 기술 발전에 중요한 영향을 미칠 것으로 예상되며, 앞으로의 연구 방향과 기대되는 사회적 변화에 대한 전망이 기대된다.

가짜 뉴스 조심 https://www.linkedin.com/posts/activity-7048199313591599104-_kn7?utm_source=share&utm_medium=member_desktop

ghlee3401 commented 1 year ago

Arxiv

ASR
- Text is All You Need: Personalizing ASR Models using Controllable Speech Synthesis
- ICASSP 2023
- 개인화된 데이터(personalized data)의 부족으로 인하여 일반적인 ASR 모델을 특정 개인을 위해 사용하는 것이 어려움
- 첫 번째 질문으로 synthetic data를 이용하여 ASR을 모델을 학습하면 성능이 좋아지는가? 에 대해서는 4개츼 벤치마크 데이커 셋에 대하여 확인했을 때 좋아지는 것을 확인하였음
- 두 번째 질문으로 왜 synthetic data를 사용하면 좋아지는가? 에 대해서 style이 아니라 content가 speaker adaptation에서 중요하다는 것을 확인하였음
- 결과적으로 개인화 된 ASR 모델을 위하여 speech content를 기반으로 한 데이터를 선택하는 것을 제안
- Table 1
  - 카테고리 1 : (style O, text O) global data의 speaker의 스타일과 target speaker의 text로 global dataset에 잘 나타나는 dataset
  - 카테고리 2 : (style X, text O) global data에 잘 나타나지 않는 speaker 스타일과 target speaker의 text 로 만들어지는 dataset
  - 카테고리 3 : (style O, text X) global data에 잘 나타나는 speaker 스타일이과 global data와 다른 target speaker의 text로 만들어지는 dataset
  - 카테고리 4 : (style X, text X) global data에 잘 나타나지 않는 speaker style과 text로 만들어지는 dataset
  - 네 개의 세팅에 대하여 모두 synthetic dataset을 사용한 것이 좋지만, 카테고리 1은 별로 도움이 안됨
  - 즉, target speaker가 global data에 잘 나타나지 않을 때 synthetic data를 사용하는 것이 도움이 된다. 땅땅!
- Table 2
  - target dataset만 이용한 2번 보다 3번의 성능이 더 좋은 것을 확인할 수 있다.
  - 여기서 3, 4, 5 의 경우 text를 target domain의 text를 샘플링하여 만들어진다.
  - 4, 5번은 텍스트는 그대로 두고 스타일만 바꾸어서 fine-tune을 한 결과인데 크게 성능이 저하 되지 않는 걸 확인할 수 있다.
  - 6, 7번은 텍스트를 다르게 해서 추가를 한 경우인데 4, 5 번과 비교하여 성능이 크게 떨어지는 것을 확인할 수 있다.
  - 즉, Personalized ASR fintuning에서 사용하는 합성 음성에서 중요한 것은 다양한 스타일이 아니라 text가 가장 중요하다!
TTS
- Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low Resource Languages
  - ICASSP2023
  - Code : https://github.com/cnaigithub/SpeechDewarping
  - 많은 양의 전사 되지 않은 음성 데이터를 이용하여 TTS를 위한 unsupervised 사전 학습 방법을 제안
  - 사전 학습한 모델을 이용하여 paired transcribed data를 적게 사용해도 TTS 모델을 잘 학습 할 수 있다는 논문
Audio Captioning
- Prefix tuning for automated audio captioning
  - ICASSP 2023
  - audio-text paired dataset이 부족하기 때문에 audio captioning 문제를 해결하기 어려움
  - 이 논문에서는 pre-trained language model을 이용하여 small dataset으로 학습하는 방법을 제안
  - audio로 부터 global, temporal feature를 추출하고 language model이 이해할 수 있는 vector로 audio feature들을 translate 하기 위한 mapping network를 학습
- WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research
  - Arxiv
  - Code : https://github.com/XinhaoMei/WavCaps
  - online으로 수집된 raw description들이 있는데 매우 noisy하고 automated audio captioning에 바로 사용하기에 적합하지 않은 경우가 있음
  - 이 논문에서는 세 가지 프로세스를 통하여 noisy 데이터 셋을 high-quality caption으로 만드는 방법을 제안
Others
- Translate the Beauty in Songs: Jointly Learning to Align Melody and Translate Lyrics
  - Arxiv
  - Sample : https://ltag2023.github.io/
  - 음악이 들어왔을 때 번역을 하고, 각 단어에 대한 노트의 수를 결정하여 정렬시켜서 번안 노래를 자동으로 만들어주는 연구
- MusicFace: Music-driven Expressive Singing Face Synthesis
  - CVMJ
  - 음악이 들어왔을 때 그에 해당하는 노래하는 얼굴을 만들어주는 연구

veritas9872 commented 1 year ago

뉴스:

ChatGPT와 같은 거대 LLM의 학습을 6개월 중단할 것을 주장하는 공개 선언이 발표되어 많은 논란과 비판을 낳고 있습니다. Elon Musk, Yoshua Bengio (???!!!) 등 유명인사가 서명하여 논쟁이 불거졌습니다. https://futureoflife.org/open-letter/pause-giant-ai-experiments

이탈리아에서 ChatGPT가 금지되었다고 합니다. 처음에는 만우절 농담으로 생각했는데 사실이었습니다... https://www.bbc.com/news/technology-65139406

연구:

Whose Opinions Do Language Models Reflect? ArXiv: https://arxiv.org/abs/2303.17548 GitHub: https://github.com/tatsu-lab/opinions_qa

인공지능 윤리 관련 연구가 Stanford에서 나왔습니다. 인공지능 챗봇의 사회적 역할이 커지면서 매우 중요한 이슈라고 생각되고 저도 전에 관련해서 발표했기 때문에 보다 더 많은 고민이 필요하다고 생각됩니다.

BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects Blog: https://bundlesdf.github.io ArXiv: https://arxiv.org/abs/2303.14158

Sigmoid Loss for Language Image Pre-Training ArXiv: https://arxiv.org/abs/2303.15343

Training Language Models with Language Feedback at Scale ArXiv: https://arxiv.org/abs/2303.16755

Robotics 관련 연구가 이번주에 많이 나왔습니다.

Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware Blog: https://tonyzhaozh.github.io/aloha Paper: https://tonyzhaozh.github.io/aloha/aloha.pdf

Robots that learn from videos of human activities and simulated interactions Blog: https://ai.facebook.com/blog/robots-learning-video-simulation-artificial-visual-cortex-vc-1/