Open jungwoo-ha opened 1 year ago
Research (겸 뉴스?): Large Language Models Encode Clinical Knowledge
구글과 딥마인드에서 ChatGPT와 유사하게 의료 영역에서 질의응답에 답변을 할 수 있도록 초거대 언어 모델을 학습한 논문입니다. ChatGPT의 등장으로 LLM을 여러 영역에서 사용하는데 관심이 급증하면서 연구가 활발해질 것으로 보입니다.
ChatGPT와는 다르게 RLHF(Reinforcement Learning with Human Feedback)을 사용하지 않고 Instruction fine-tuning 기반의 FLAN 모델에서 soft prompt, 단어 대신 한 단계 encoding된 prompt를 학습한 후 추가하는 방식을 적용합니다.
GitHub: https://github.com/mjbommar/gpt-takes-the-bar-exam
유사한 맥락으로 법률 분야에서 GPT 3.5 계통의 모델을 미국 변호사 시험 모의고사에서 객관식 문항에 적용했을 때 별도의 학습 없이 prompt tuning 만으로도 상당한 성능을 얻을 수 있는 것을 보여줍니다.
두 논문은 LLM을 전문 지식이 필요한 분야에서 적용할 때 신규 학습 뿐만 아니라 prompting 방법을 적용하는 것의 중요성과 전문성을 유도하는 방법에 대한 실험적 연구로 의미가 있다고 생각됩니다.
Tutorial High-Performance Computing for Deep Learning (HPC4DL)
딥러닝, 특히 PyTorch 사용자를 위한 GPU 하드웨어부터 최상위 소프트웨어 기술스택까지 어떻게 구성되어있는지 발표를 한 영상을 공유해드립니다. 딥러닝 학습의 원리 및 GPU 하드웨어에서의 구현, PyTorch에서 적용되는 방법 등 깊이 있게 다룰 뿐만 아니라 실제 연구개발을 하시는 분들께 도움이 될만한 팁과 경험 또한 많이 공유했습니다.
Scaling Language-Image Pre-training via Masking
TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models
- distillation targets: token relation을 distillation 하는게 CLS token이나 feature map을 하는 것보다 좋음
- teacher와 다른 downstream task일 경우 last layer보다 중간 layer가 더 좋음
- original image가 masked image보다 좋고, regulrization은 아주 살짝만
- auxiliary losses는 도움 안됨
- ViT-B -> ViT-T 로 한방에 가는 것보다 ViT-B -> ViT-S -> ViT-T로 순차적으로 가는게 더 잘됨
ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
News
OpenAI 지분 공개 매각 시도, 약 300억 달러 규모
Generative AI 기업에 22년에만 13억 7천만 달러의 투자가 유치됨
AI가 생성한 이미지, 텍스트 등의 데이터가 온라인에 돌아다니면 모델의 학습에 다시 들어갈 위험이 존재
아직은 비공개인 링크도 살짝 올려보자면 (아직 arxiving 되지 않은 후속논문의 프로젝트페이지입니다.)
styletransfer 스러운 무언가도 할 수 있습니다.
News
Conferences
- AAAI 2023 모두들 축하드립니다 (뒷북)
- ACL 2023: Softconf 1월 17일
- ICML 2023: Openreview 1월 26일 (한국 시간 27일 새벽 5시.. )
- CVPR 2023: 리뷰 1월 10일까지.. Aㅏ.....
- ICML 2023에서 ChatGPT 사용과 관련한 이슈
Anthropic 의 Claude 가 ChatGPT3 보다 낫다는데...
- CES 2023 대해부 웨비나
Research
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
- MS에서 공개된 DALL-E 스타일의 Zero-shot Text-to-speech version. (음성 스타일 + 화자)
- Of-the-shelf audio encoder --> VQ token --> Neural Codec LM --> Conditional LM token 생성 --> Audio decoder
- Text prompt --> Phoneme conversion token, Audio prompt --> audio codec encoder token
- 프로젝트 & 데모: https://valle-demo.github.io/
Muse: Text-To-Image Generation via Masked Generative Transformers
- Google에서 나온 Transformer 기반 Masked Image Model 스타일 Text-to-image generation
- VQ token 레벨의 Masking. Text encoder (T5-XXL), Base MIM Transformer, HR Superresolution Transformer,
- 기존 Pixel level diffusion (Imagen, DALLE2) 나 Parti (autoregressive) 보다 이래 저래 효율적이라는..
- 물론 VQ tokenizer는 필수. Masking ratio는 Cosine scheduling (MaskGIT)
흥미있는 연구
제목 그대로.. 대기업의 B2B SaaS 상품화??
Scalable Diffusion Models with Transformers: LDM의 Attention UNet 을 Transformer로
Cool Japan Animation by FT Stable Diffusion: 당신이 애니덕후라면..
언제나 좋은 정보 공유 감사드려요~ 새해 복 많이 받으소서!
News
Research
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
Muse: Text-To-Image Generation via Masked Generative Transformers
흥미있는 연구