[20230917] Weekly AI ArXiv 만담 시즌2 - 26회차

Zoom: https://navercorp.zoom.us/j/92208940283

페이스북: https://www.facebook.com/weeklyaiarxivpage

News

Conference
- ICLR 2024
  - Abs: 9.23 AoE (9.21에서 변경) , Full paper: 9.28
  - LLM 사용원칙: 써도 되지만 양심껏 해라. 저자는 안된다.
- CHI 2024: 모두들 수고 많으셨습니다.
메타가 다시 AI에 올인? GPT4 능가하는 연구를 시작했다고
Google Deepmind Gemini의 출시가 다가오고 있다?
- 구글 외부에서 클로즈 베타를 시작했다는
If you’d bought Apple shares instead of iPhones, you’d now have $147,000
- 이건 왠지 DGX (V100, A100, H100)을 안사고 엔비디아 주식을 샀다면..
- 테슬라 차를 안사고 테슬라 주식을 샀다면.. 과 비슷한 느낌? ㅎㅎ
[phi-1.5 이슈]
- Textbook is all you need: 1.3B with 150B token 으로 압살
- 데이터 오염 (Test 데이터로 학습) 이 의심됨
- LLM 은 어떻게 공정하고 정확하게 훈련하고 평가할지에 대한 프로토콜 체계 잡는 것부터 국제 공동연구가 필요할 듯
BrainLink 2023 LLM conference
- OpenAI, MSR 등 세계 최고 LLM 전문가 출동
- 장소가... 평창 켄싱턴 (주위에 국보 많음 ㅋㅋㅋㅋㅋ)
- 신청은 요기서: https://forms.gle/QWFKHzWpdWTDo1o1A

ArXiv

In the long (context) run
- Long context LLM 에 대해 잘 정리한 블로그
- FlahAttention 나오면서 GPU 메모리와 연산 최적화로 long context 부담이 많이 줄어듬
- 최근의 Long context 는 주로 fine-tuning 기반이다.
- 그럼 왜 pretraining 시에 long context 를 직접 고려해서 하지 않나?
  - pretraining 의 추가 attention overhead 때문? (이건 모델이 커지면 크게 부담스럽지 않음)
  - Pretraining 할 때 써먹을 long context 데이터 자체가 많이 없어서 (이게 중요한 문제)
- Common crawl 중에선 C4보단 refineWeb이 좀더 낫고 코드는 확실히 좀더 상황이 좋음
- 그럼 어떻게?
- pretraining단에서 long-context 학습 녹록하지 않음. 배치 학습 효율위해 최대 길이 끼워맞춰 넣기 때문에 별로 효과없을 가능성
- 결국 long-context 성향을 갖도록 웹페이지의 링크를 이용한 이어붙이기 같은 걸 해야
- 양질의 문서데이터를 더 확보하고 데이터 가공작업에 공을 더 들이는 것도 방법 (비용의 문제)
- 그런데 long context pretraining vs long context FT 를 비교할려고 보니 애당초 성능 평가 프로토콜이 부족해서 효과 검증이 어려움
- DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning
- Parameter efficient tranfer learning 과 prefix-tuning (p-tuning v2) + LoRA의 합작품 같은? (from UCL)
- p-tuning v2의 학습가능한 soft prompt 의 일부 파라미터를 low rank로 분할해서 embedding 계산 때 적용
- 뭔가 그럴듯 하긴 한데.. 얼마만큼 LLM 전체에 영향을 줄지... 큰 모델에서 얼마만큼 효과가 있을 지..
- 실험은 주로 작은 모델에서 NLU task위주로 수행. LLaMA 시리즈 실험이 없어서 아쉽

News

Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality

Paper: https://www.hbs.edu/faculty/Pages/item.aspx?num=64700 Blog: https://www.oneusefulthing.org/p/centaurs-and-cyborgs-on-the-jagged

여러 비즈니스 스쿨 및 BCG 컨설팅 그룹에서 참여한 인공지능의 생산성 향상 연구가 공개되었습니다. BCG 컨설팅 그룹의 컨설턴트 753명에게 인공지능 없이 업무 진행, 단순히 GPT4만 제공, GPT4 제공 및 prompting 관련 교육 진행 세 그룹으로 나누었을 때 생산성이 약 25% 향상되고 업무의 퀄리티도 증가했음을 발견했습니다. 특히 경험이 부족한 컨설턴트의 업무 능률 향상이 가장 큰 것을 확인했습니다. 다만, 유사한 난이도로 보이는 과제 중 오히려 인공지능을 적용하는 것이 부정적인 영향을 미치는 경우도 있었으며 사람마다 가장 효율적으로 AI를 적용하는 방법이 다르다는 것도 보였습니다. 인공지능이 업무를 바꾸는데 어떤 영향을 미칠지에 대해 논쟁이 활발해진 가운데 많은 도움이 될 것 같습니다.

Large Language Models for Compiler Optimization

ArXiv: https://arxiv.org/abs/2309.07062

Meta에서 LLM을 통한 Code optimization에 대한 연구를 공개했습니다. Introduction을 읽어보면 결과가 너무 잘 나와 저자들도 깜짝 놀랐다고 기재했는데 Llama 2 7B 모델을 scratch training함으로써 LLVM IR을 제공했을 때 최적화 경로를 언어모델이 정학게끔 함으로써 현재 컴파일러보다 약 3% 더 최적화된 코드를 얻을 수 있었고 약 70%의 경우 가장 최적화된 컴파일러 옵션과 동일한 결과를 얻었습니다.

컴파일러 코드 특성상 양질의 데이터 생성 및 검증이 쉬운 편인데 (요즘 기준으로는) 비교적 작은 모델인 7B LLama2를 scratch training함으로써 현재 rule based model보다 더 우수한 성능을 획득한 것을 보아 유망한 연구주제로 생각됩니다. 또한, 물론 Phi 1.5는 현재 논란이 많지만 자연어를 제외한 프로그래밍 언어에서 언어모델이 더 적은 데이터로도 우수한 학습 능력을 보일 수 있다는 근거로 생각됩니다 (결국 정답은 데이터?...).

Large Language Model for Science: A Study on P vs. NP

TL;DR. socratic reasoning
https://x.com/_akhaliq/status/1701763296460697805?s=20

물론, "증명"은 틀린거 같습니다: https://x.com/thegautamkamath/status/1703070665891315957?s=20

Bayesian Flow Network

~~정정정말 어렵네요~~ ~~어지러운 논문이지만, 뭔가 뭔가 잘만 이해하면 되게 괜찮은 논문인거 같은 느낌적인 느낌...~~

숲

지금까지의 generative modeling의 파워는 joint distribution encoding을 쉬운 여러 step으로 쪼개는거에 있다
- autoregressive, flow-based, VAE, diffusion...etc
그런데,
- autoregressive: only successful in text domain (discrete ordered data)
- diffusion: only successful in image domain (continuous), but not for text...
"A key motivation for this paper was our belief that a fully continuous transmission process — where Alice’s messages smoothly alter Bob’s beliefs — would be more effective for discrete data."
- 이게 되면 continuous diffusion에서 쓰이던걸 가져올 수 있다!

TL;DR. Diffusion on *parameters of data distributions**!!

Some possible 장점들?:

No need for inversion
BFN starts from parameter of some prior, while diffusion starts from pure noise?
등등?

Technical detail

(정보이론에서 많이 이용되는 방식인거 같은데) Alice - sender과 Bob - receiver가 있다고 하죠
- Alice는 data가 있고, Bob는 최소한의 bit를 통해 data를 유추하고 싶음
- Bob가 똑똑할수록 less bit로도 full msg를 유추를 할 수 있겠죠
- bit 개수 ~ loss function (e.g., entropy, KL divergence...etc)
Bob: param of input distr -> [neural network] -> param of output distr -> [convolve with same noise distr] -> receiver distribution
- input distr: 초반엔 uniformative prior, 그리고 Alice한테 받은 sample들을 기반으로 Bayesian update (- fixed)
- input distr과 다르게, output distr은 context information (e.g., surrounding pixels, related words)를 exploit할 수 있다!
- neural network에 관련 정보가 encoding이 되어있기 때문!
Alice: Data + pre-defined scheduled noise -> sender distribution
cost ~ KL (sender || receiver)

cf. https://twitter.com/SchmidhuberAI/status/1694016724880761188

jungwoo-ha / WeeklyArxivTalk