[20230226] Weekly AI ArXiv 만담 시즌2 - 7회차

News

정부부처/지자체 모두 ChatGPT & 초거대AI 열공 모드: 앞으로 더많이 할 듯..
- 교육부, 과기정통부, 문체부, 경기도, 충청남도
美 당국 “챗GPT가 만든 이미지, 저작권 인정 못해”
'챗GPT' 두려웠나…中, 서비스 차단령
ControlNet 열풍
- ControlNet Video

ArXiv

LLaMA: Open and Efficient Foundation Language Models
- 나왔습니다 Yann 옹의 비장의 무기 LLaMA (Large Language Model Meta AI)
- 6.7B, 13B, 32.5B, 65.2B 의 크기에 1T 혹은 1.4T 토큰 학습 --> Chinchilla 처럼 (상대적으로) 작지만 많이 배운 녀석
- Pre-norm, SwiGLU, Rotary embedding 을 활용한 Transformer decoder only, AdamW with 꽤 큰 LR
- 주 비교대상은 GPT3 (다빈치 뭔지 모르겠음), Chichilla, PaLM
- 일반 Zero-shot, Common sense reasoning, 수리추론, code 생성, Safety 등 다양(딱히 Safety만을 위한 뭔가를 하진 않음),
- OPT 처럼 모델, 코드 모두 공개! OPT의 아쉬움을 달랠 수 있을 것 인가?
- DeiT의 Hugo가 1저자!! (메타가 절치부심?)
- 블로그: https://ai.facebook.com/blog/large-language-model-llama-meta-ai/?utm_source=twitter&utm_medium=organic_social&utm_campaign=llama&utm_content=blog

Audio, Speech, Music

News

삼성전자, AI 어시스턴트 ‘빅스비(Bixby)’ 나만의 맞춤형 기능 업데이트 실시
- 2월 23일부터 사용자 자신의 목소리를 입력 가능
- 사용자는 사전에 지정된 18개의 문장을 따라 읽으며 녹음하면, 빅스비에서 AI 학습 과정을 거쳐 음성 출력 서비스를 제공
- 사용자가 전화를 받을 수 없는 경우, 수신자가 텍스트를 치면 발신자에게 자신의 음성으로 전달됨
- 텍스트로 전화 받기 기능은 한국어에 이서 영어까지 지원
- 나만의 호출어 만들기 기능을 통해 3에서 5글자 사이의 어구로 원하는대로 호출어를 선택 가능
- 유튜버 영상 : https://youtu.be/MDxJ9hl1pjQ
  - 나만의 목소리는 톤이 안 바뀌어서 자신의 목소리로 안 들리는 듯함
  - 호출어는 알렉사나 오케이 구글 처럼 다른 회사의 호출어는 안되게 해놓은 듯
KT AI 보이스 스튜디오, 생성형 AI 접목한다
- KT는 AI 보이스 스튜디오 서비스에 생성형 AI 모델을 도입, 동영상 콘텐츠까지 제작할 수 있는 플랫폼으로 진화시킨다.
- 영상, 이미지 생성 AI를 위해 씨앤에이아이(CN AI) 와 기술 협력을 통하여 AI 보이스 스튜디오에 영상 생성 AI 기술을 접목해 동영상 콘텐츠 제작까지 가능하도록 진화시킬 예정이다.
  Arxiv
이번 주는 주목할만한 합성 연구가 없어서 짧게 짧게 훑고 넘어갑니다 :)
jazznet: A Dataset of Fundamental Piano Patterns for Music Audio Machine Learning Research
- Keyword : Dataset
- Code : https://github.com/tosiron/jazznet
- ICASSP 2023
- MIR을 위하여 재즈에서 사용하는 패턴을 정리하여 모은 데이터셋
- 자동으로 162,520개의 piano music pattern sample을 생성 (95GB, 26K 시간)
- 음악 이론을 기반으로 Distance-Based Pattern Structures(DBPS) 알고리즘을 만듦
- DBPS 알고리즘으로 Pattern Generator를 제공하여 데이터 셋에 없는 패턴을 user가 직접 생성할 수 있음
- 이전의 DB들은 완성된 데이터 셋들을 주로 공개하였다면, 이 논문은 패턴 하나 하나 설계하여 생성한 것이 특징
Conformers are All You Need for Visual Speech Recogntion
- Keyword : Visual speech recognition (VSR)
- Google 에서 나온 논문
- Video (혹은 speech도 포함)를 보고 어떤 말을 하는지 인식하는 모델에서 video로부터 특징을 뽑아내는 모듈 visual feature extraction? (VFE)로 VGG나 ViT 을 사용하는데 메모리를 많이 잡아먹는다는 점을 언급
- VGG나 ViT 없이 linear projection (LP) 만을 이용해도 뒤쪽 conformer에서 알아서 잘 해준다는 내용
Improving Transformer-based Networks With Locality For Automatic Speaker Verification
- Keyword : Speaker verification
- ICASSP 2023
- Transformer 기반의 모델들은 화자 정보를 정확하게 추출하기 위해 필요한 local context를 학습하는데 적절하지 않음
- 이 논문에서는 Locality-Enhanced Conformer (LE-Conformer)와 Speaker Swin Transformer (SST)를 제안
- Conformer module에서 Feed Forward layer에 depth-wise 1D conv와 Squeeze-and-Excitation(SE) 블록을 추가
- Swin Transformer를 이용하여 frame 단위가 아닌 patch 단위로 speech feature를 추출
- VoxCeleb1, 2는 LE-Conformer가 MS-internal dataset에서는 SST가 더 좋은 성능을 보여줌

Multimodal Chain-of-Thought Reasoning in Language Models ArXiv: https://arxiv.org/abs/2302.00923 GitHub: https://github.com/amazon-science/mm-cot

기존 방법과의 가장 큰 차이점은 Vision feature와 language feature를 결합하는 방법입니다.

단순한 concatenation이 아닌 single head self-attention 후 gated fusion 방식을 활용하여 learned feature intermingling을 잘 활용해야지만 성능 향상을 볼 수 있었습니다. 결합 방법에 대한 추가적인 ablation과 이론적 분석이 없다는 점은 다소 아쉬웠습니다.

논문의 가장 큰 기여는 1B의 작은(?) 모델에서도 CoT를 가능하게 할뿐만 아니라 SOTA 성능을 냈다는 점과 hallucination을 vision feature를 통해 크게 줄일 수 있다는 것을 보여주었다는 점으로 생각됩니다. Vision feature extractor 또한 pre-trained model의 frozen weight를 사용했기 때문에 연구를 진행하는데 많은 도움이 될 것 같습니다.

FlexGen: Running large language models like OPT-175B/GPT-3 on a single GPU. GitHub: https://github.com/FMInference/FlexGen

Stanford, Berkley, EPFL 등 여러 연구 단체에서 FlexGen이라는 LLM inference 라이브러리를 공개했습니다.

LLM inference에서 고성능 GPU 없이도 비교적 빠르게 inference를 진행하기 위해 새로운 offloading schedule 및 compression을 활용하여 OPT-175B와 같은 LLM에서도 높은 throughput을 낼 수 있습니다. 다만, latency는 좋지 않다고 합니다.

아직 알파 단계이지만 LLM inference 결과를 분석하는 연구를 하는데 도움이 될 것 같습니다.

[ChatGPT의 가능성과 한계]

제가 페이스북에 쓴 글을 옮겨와 봅니다.

2012년, AlexNet이 많은 데이터를 2주간 학습시켜 이미지 인식 대회를 우승했을 때만 해도 데이터와 모델사이즈 증가가 가져올 성능 향상은 머지않아 포화될 것이라 믿었었다. 하지만 향후 10년, AI에서 입증된 사실은 다음과 같았다. "가능만하다면, 더 많은 데이터를 더 큰 모델에 넣는게 장땡이다."

하지만 모든 영역에서 "많은 데이터"가 가용하지 않았다. Data-centric AI가 나온 이유도 이 때문이었다. 세상에 AI가 활약하지 못하는건 모델이 없어서가 아니다. task에 밀착된 데이터가 없어서였고, 이 안에 인간의 지식을 labeling으로 넣는 과정이 너무 어려워서였다.

지난 3년간 ART Lab에서 피부AI를 만들어보니 그 어려움이 생각보다 크단 걸 알 수 있었다. 처음엔 '의사 레이블링만 있으면 되는거 아니야?'라고 생각했지만, 서비스를 일으켜 데이터를 얻고, 모호함 속에 균일한 레이블링을 얻으며, 이를 다시 고객가치로 연결하는 일은 일반 스타트업 MVP의 몇배의 시간이 들어가는 일이었다.

인류의 가장 보편적인 지식을 담은 AGI를 만든다고 한다면 과연 어떤 데이터를 넣어야 할까? 사람들보고 온갖 지식을 레이블링 해달라고 요청할 수 있을까? 다행스럽게도 인류에겐 가장 오래된 지식데이터가 있었다. 바로 책, 그리고 현대시대엔 웹이다.

"더 큰 모델에 더 큰 데이터"가 AGI를 만드는 왕도라면 세상에 존재하는 모든 웹 텍스트를 넣을 거대한 모델과 컴퓨팅파워만 존재하면 된다. 이것이 바로 LLM의 출현이며, 그동안 BERT의 첫 반향에서 시작해 몇백배로 사이즈가 커진 GPT가 마침내 "난 생각보다 똑똑해"라는걸 만천하에 알리게 되었다.

2012년, ImageNet챌린지에서 다뤘던 1000가지 카테고리 구분하기엔 100여종이 넘는 강아지도 구분해야 한다. 강아지 전문가가 아니면 어려울 일이고 '당연히 AI가 잘하지'란 말이 나올법하다. GPT도 그런 수준에 이르렀다. '세상 모든 웹지식을 두뇌에 넣고 있는데 당연히 AI가 더 잘하지'. AI가 웬만한 사람보다 글도 더 잘쓰고 지식도 풍부하다.

물론 단점이 있다. 첫째, 웹 지식은 방대하지만 전문적이지 않다. 그렇기에 ChatGPT에 물어보면 수많은 블로그 요약 수준의 답변은 하겠지만 전문가 수준의 답은 하지 못한다. 코딩처럼 모든 전문가의 행위가 웹에 데이터화 되어있지 않다면 말이다. (참고로 부트캠프 수준의 코더들은 모두 대체될 것이라 예상한다)

또다른 단점은 눈이 없다는 점이다. 물론 멀티모달로 텍스트 뿐만 아니라 비전, 음성 등 다양한 입력들을 연계해 연구가 이루어지고 있다. 하지만 아직은 text-to-text만큼 충분히 방대하지 못하다. 무엇보다 "이거 뭐야?"처럼 질문에 충분한 텍스트가 녹아져있지 않은 경우, 반대로 텍스트 말고 다양한 아웃풋(e.g.감정)의 출력을 원하는 경우 그것이 불가능 하다.

당신의 task를 완벽하게 언어로 설명할 수 있다면 프로그래밍으로 해결 가능하다. 하지만 사람은 (하물며 개/고양이 구분법조차도) 언어로 설명하지 못하기 때문에 "예시로 보여줄게"라며 Data-driven의 방법이 나오고 머신러닝이 흥한 것이다. 사람은 여전히 언어로 "완벽한 질문"을 할 수 없으며, "완벽히 담지 못한 텍스트 지식"으로 학습하며 "완벽한 텍스트"로 표현하지 못하는 GPT엔 한계가 있다.

당장 초거대AI를 하는 초거대기업들은 멀티모달학습으로 넘어가며 엄청난 전기료 & 이산화탄소 방출을 뽐내고 있지만, 작은 스타트업들이 해야할 일은 빠르게 GPT에 도메인 전문 두뇌를 달아주고, 여기에 눈을 달아주는 일일 것이다. ART Lab은 GPT가 피부과의사가 될 수 있게 하기위해 그동안 쌓아왔던 피부AI를 바탕으로 눈을 달기 시작했다.

이제까진 데이터에 레이블링을 해서 넣어줘야 AI가 만들어지는 시대였었다. 하지만 이젠 자연어로 AI가 길들여지는 시대가 되었다. 예전엔 서버로 데이터를 쌓고 레이블링을 할 수 있는 곳만 AI를 쓸 수 있었다면, 이젠 누구나 AI로 나만의 서비스를 만들 수 있다. 곧 앱스토어만큼이나 풍부해진 AI스토어를 보게 될 것이다. 새 시대의 AI도 기대되고, 세상에 AI & Robotics Tech(ART)를 뿌리내리는 ART Lab의 새 시대도 기대된다.