Open scene-the-ella opened 1 year ago
Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision
Keyword : TTS
Sample URL : https://google-research.github.io/seanet/speartts/examples/
적은 데이터 만으로 고품질의 음성을 생성할 수 있는 다화자 TTS 모델을 제안함
Figure 1처럼 TTS를 text로부터 semantic token으로 변환하는 단계(Reading), semantic token에서 acoustic token으로 변환하는 단계(Speaking) 두 단계로 나누어 학습함
첫 번째 단계는 parallel dataset을 이용하여 discrete semantic token (text content) 정보만이 나오도록 함
두 번째 단계는 audio dataset만을 이용하여 학습하고 speaker ID 대신 audio sample을 prompt로 넣음
데이터 셋은 LibriTTS - audio-only (551 시간, 247 명), LJSpeech (15분만 사용, 1명)
zero-shot learning 모델인 YourTTS와 VALL-E와 성능을 비교
MOS를 보면 SPEAR-TTS는 gt보다 높다
VALL-E 보다 좋은 성능을 보여줌
HuggingFace PEFT:
Blog: https://huggingface.co/blog/peft GitHub: https://github.com/huggingface/blog
HuggingFace에서 Parameter-Efficient Fine-Tuning을 위한 새로운 라이브러리를 공개했습니다. 기존 LLM을 특정 task를 위해 fine tuning을 진행하기 위해서는 메모리로 인해 학습이 어려웠는데 HuggingFace ecosystem과 호환되는 라이브러리를 통해 대부분의 parameter를 freeze한 채로 fine-tuning하는 작업을 진행할 때 메모리 사용량을 크게 낮추어 학교에서도 사용할 수 있는 11GB GPU에서도 LoRA와 같은 3Billion 모델을 간편하게 학습할 수 있도록 합니다. 리소스가 충분하지 않은 많은 연구원에게 LLM을 접근하기 쉽게 한다는데 의의가 있다고 생각됩니다.
예시 코드:
from transformers import AutoModelForSeq2SeqLM
+ from peft import PeftModel, PeftConfig
peft_model_id = "smangrul/twitter_complaints_bigscience_T0_3B_LORA_SEQ_2_SEQ_LM"
config = PeftConfig.from_pretrained(peft_model_id)
model = AutoModelForSeq2SeqLM.from_pretrained(config.base_model_name_or_path)
+ model = PeftModel.from_pretrained(model, peft_model_id)
tokenizer = AutoTokenizer.from_pretrained(config.base_model_name_or_path)
model = model.to(device)
model.eval()
inputs = tokenizer("Tweet text : @HondaCustSvc Your customer service has been horrible during the recall process. I will never purchase a Honda again. Label :", return_tensors="pt")
with torch.no_grad():
outputs = model.generate(input_ids=inputs["input_ids"].to("cuda"), max_new_tokens=10)
print(tokenizer.batch_decode(outputs.detach().cpu().numpy(), skip_special_tokens=True)[0])
# 'complaint'
Attending to Graph Transformers:
ArXiv: https://arxiv.org/abs/2302.04181v1 GitHub: https://github.com/luis-mueller/probing-graph-transformers
Graph Transformer에 대한 리뷰 및 기존 GNN과의 차이점에 대한 주장에 대한 실험이 섞인 독특한 논문입니다.
Graph Transformer는 positional embedding을 통해서 graph connectivity를 주입하는데 다른 encoding 방법에 대한 비교, 그리고 기존 GNN과 비교했을 때 Graph의 구조를 이해할 수 있는 능력, 그리고 oversmoothing을 극복할 수 있는지 등에 대해 비교합니다.
A Categorical Archive of ChatGPT Failures: ArXiv: https://arxiv.org/abs/2302.03494
ChatGPT/LLM error tracker: https://garymarcus.substack.com/p/large-language-models-like-chatgpt
ChatGPT의 오류가 대두되면서 여러 종류를 분석한 논문입니다. 공유드린 블로그에서 영감을 얻었다는데 비전문가에게 설명할 때 좋은 자료라고 생각됩니다.
Mnemosyne: Learning to Train Transformers with Transformers: ArXiv: https://arxiv.org/abs/2302.01128 Blog: https://sites.google.com/view/mnemosyne-opt
Learning to learn 계통에서 linear transformer를 사용하는 것에 관한 논문입니다. 실용성은 상대적으로 떨어지지만 현재 학습하는 것처럼 특정 optimizer를 heuristic하게 정하는 것보다 teacher network를 학습해 optimizer의 역할을 하게 하고 target network의 gradient를 제공받았을 때 학습된 network의 결과에 따라 parameter update를 진행합니다. 해당 논문에서는 MNIST에서 MLP student에 대해 meta-training을 진행한 Performer를 Vision Transformer 모델의 CIFAR 학습에 사용했을때에도 우수한 성능을 보인다는 것을 보여줍니다.
https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web
noisy한 web data에서 우리가 원하는 sample만을 뽑는 방법 (일종의 filtering)
DSIR (Data Selection with Importance Resampling)
KL reduction : data selection의 quality measure
Selecting Data for Domain-Specific Continued Pretraining 에서 성능 향상
Selecting Data for Training General-Domain LMs 에서 성능 향상
Selected Data 예제
Do upstart AI chip companies still have a chance vs. NVIDIA’s GPU? NVIDIA 2021년 매출은 106억 달러, 4분기에만 32억 6천만 달러이며 이것은 연간 기준으로 상위 3개 AI 반도체 스타트업의 기업가치를 합친 것보다 많습니다
GPU는 ASIC보다 131배 더 많이 사용되며, Graphcore, Habana, Cerebras, SambaNova, Cambricon의 칩을 합친 것보다 90배 더 많이 사용되고, Google의 TPU보다 78배 더 많이 사용되며, FPGA보다 23배 더 많이 사용됩니다.
2017년에 출시된 V100은 NVIDIA의 주력 칩이며, 2020년에 출시된 A100이 그 뒤를 잇고 있습니다. 2022년에는 H100이 출시될 예정입니다. 주요 AI 칩 도전자 중 그래프코어가 가장 자주 언급됩니다.
400억 달러로 발표되었던 NVIDIA의 Arm 인수 시도는 지정학적 문제와 경쟁사의 반발로 인해 실패로 돌아갔습니다. 그럼에도 불구하고 NVIDIA의 기업 가치는 이 기간 동안 2950억 달러가 증가했습니다.
하이퍼스케일러와 챌린저 AI 컴퓨팅 제공업체들은 주요 AI 컴퓨팅 파트너십을 체결하고 있으며, 특히 Microsoft가 OpenAI에 10억 달러를 투자한 것을 주목할 만합니다. 앞으로 더 많은 투자가 있을 것으로 예상됩니다.
기업들은 국가 슈퍼컴퓨터보다 더 큰 슈퍼컴퓨터를 구축합니다. "가장 큰 컴퓨터를 가진 사람에게 가장 많은 혜택이 돌아갈 것으로 생각합니다." - Greg Brockman, OpenAI CTO
AI 분야에서 정부 계약의 복합적 효과 1962년 미국 정부는 전 세계의 모든 집적 회로를 구입하여 이 기술과 최종 시장의 개발을 강화했습니다. 일부 정부는 AI 기업을 위한 "최초의 구매자"로서 그 기회를 다시 제공하고 있습니다. 고유한 고품질 데이터에 액세스할 수 있는 기업은 소비자 또는 엔터프라이즈 AI 소프트웨어를 구축하는 데 있어 우위를 점할 수 있습니다.
메타가 2022년 8월에 무료로 공개적으로 사용할 수 있는 블렌더봇3 챗봇을 출시했을 때, 이 챗봇이 잘못된 정보를 뱉어내 언론의 뭇매를 맞았습니다. 한편, 2021년 5월에 챗봇 LaMDA에 대한 논문을 발표했던 구글은 이 시스템을 사내에 유지하기로 결정했습니다. 하지만 블렌더봇이 출시된 지 몇 주 후, 구글은 일반 사용자들이 LaMDA를 포함한 구글의 최신 AI 에이전트와 상호작용할 수 있는 'AI 테스트 키친'이라는 대규모 이니셔티브를 발표했습니다.
티어 1 AI 연구소의 인재들이 독립하여 기업가로 거듭나고 있습니다. 졸업생들은 AGI, AI 안전, 생명공학, 핀테크, 에너지, 개발 도구 및 로봇 공학 분야에서 일하고 있습니다. 트랜스포머 기반 신경망을 소개한 획기적인 논문의 저자 중 한 명을 제외하고는 모두 구글을 떠나 AGI, 대화형 에이전트, AI 우선 생명공학 및 블록체인 분야에서 스타트업을 설립했습니다.
AI 코딩 어시스턴트가 빠르게 배포되고 개발자 생산성 향상에 대한 초기 징후가 나타나고 있습니다. OpenAI의 Codex는 연구(2021년 7월)에서 상용화(2022년 6월)로 빠르게 발전하여 현재 월 10달러 또는 연간 100달러에 공개적으로 사용할 수 있는 (마이크로소프트의) GitHub Copilot을 출시했습니다. 아마존은 2022년 6월에 CodeWhisperer를 프리뷰 버전으로 발표하며 그 뒤를 따랐습니다. 구글은 내부적으로 머신러닝 기반 코드 완성 도구를 사용하고 있다고 밝혔습니다.
2020년 0개에서 18개로 늘어난 AI 우선 신약 개발 기업의 임상시험 수 초기 발견 단계에 있는 자산은 더 많습니다. 2023년부터는 초기 임상시험 결과가 나올 것으로 예상됩니다.
하지만 2011년부터 2020년까지 6,151건의 성공적인 임상시험 단계 전환에 대한 연구에 따르면 의약품이 규제 당국의 승인을 받는 데 평균 10.5년이 걸리는 것으로 나타났습니다. 여기에는 임상 1상 2.3년, 임상 2상 3.6년, 임상 3상 3.3년, 규제 단계 1.3년이 포함됩니다. 또한 임상시험에 환자 한 명을 모집하는 데 평균 6.5만 달러가 소요됩니다. 결국 30%의 환자가 규정 미준수로 인해 중도 탈락하므로, 전체 모집 비용은 환자당 19.5만 달러에 육박합니다. AI는 더 나은 약을 더 빨리 개발할 수 있다고 약속하지만, 현재 임상시험의 물리적 병목현상을 해결해야 합니다.
mRNA 백신의 선두주자인 BioNTech와 엔터프라이즈 AI 기업인 InstaDeep은 고위험 변종을 예측하기 위해 조기 경보 시스템(EWS)을 공동으로 구축하고 검증했습니다. EWS는 공식적으로 지정되기 평균 1개월 반 전에 WHO가 지정한 16가지 변종을 모두 식별할 수 있었습니다. 빨간색 점선은 EWS가 해당 변종이 고위험이라고 예측한 날짜를, 녹색 점선은 WHO가 해당 변종을 지정한 날짜를 나타냅니다. 거의 모든 경우에서 EWS는 WHO 지정 몇 달 전에 경고를 보냈습니다.
대학은 Databricks, Snorkel, SambaNova, Exscientia 등 AI 기업의 중요한 원천입니다. 영국에서는 영국 전체 기업의 0.03%에 비해 4.3%의 AI 기업이 대학에서 스핀아웃된 기업입니다. AI는 실제로 스핀아웃이 가장 많이 형성되는 분야 중 하나입니다.
2022년, AI를 사용하는 스타트업에 대한 투자는 시장 확대와 함께 둔화되었습니다. AI를 사용하는 민간 기업의 2022년 투자액은 작년 대비 36% 감소*할 것으로 예상되지만, 여전히 2020년 수준을 상회할 것으로 예상됩니다. 이는 전 세계 모든 스타트업 및 스케일업에 대한 투자와 비슷한 수준입니다.
VC 투자 감소는 1억 달러 이상의 라운드에서 가장 두드러지는 반면, 소규모 라운드는 2022년 말까지 전 세계적으로 309억 달러에 달할 것으로 예상되며, 이는 2021년 수준과 거의 비슷한 수준입니다.
미국이 AI 유니콘 수 1위, 중국과 영국이 그 뒤를 잇고 있습니다. 미국은 292개의 AI 유니콘을 탄생시켰으며, 총 기업 가치는 4조 6천억 달러에 달합니다.
AI를 사용하는 미국 기반 스타트업 및 스케일업에 대한 투자가 크게 감소했지만, 여전히 전 세계 AI 투자의 절반 이상을 차지하고 있습니다.
엔터프라이즈 소프트웨어는 전 세계적으로 가장 많은 투자를 받은 분야이며, 로보틱스는 AI에 대한 VC 투자에서 가장 큰 비중을 차지하고 있습니다.
기업공개(IPO)와 스팩(SPAC) 기업공개 건수는 급격히 감소했지만, 인수 건수는 2021년 수준을 초과할 것으로 예상됩니다.
9 predictions for the next 12 months
News
ArXiv
Offsite-Tuning: Transfer Learning without Full Model
재미있는 연구