jungwoo-ha / WeeklyArxivTalk

[Zoom & Facebook Live] Weekly AI Arxiv 시즌2
973 stars 41 forks source link

[20230903] Weekly AI ArXiv 만담 시즌2 - 24회차 #90

Open jungwoo-ha opened 1 year ago

jungwoo-ha commented 1 year ago

News

ArXiv

veritas9872 commented 1 year ago

Technical News

Candle: A Minimalist ML framework for Rust

GitHub: https://github.com/huggingface/candle

HuggingFace에서 Rust 언어 기반의 Candle 딥러닝 프레임워크를 출시했습니다. Torch와 유사하지만 상대적으로 기능이 적은 것으로 보이는데 Python을 사용할 수 없는 embedded 또는 millisecond-level latency가 요구되는 환경에서 모델 추론을 하는데 많은 도움이 될 것 같습니다.

내부를 들여봤을 때 Rust와 CUDA 사이에 불안정한 wrapper API에 의존하고 있어 production에 사용하기에는 문제가 있을 것으로 생각되지만 robotics 등 Python으로 인한 memory 및 latency overhead가 부담스러운 환경에서 사용해볼 수 있을 것 같습니다.

Rust는 WASM과 호환성이 매우 좋아 웹브라우저에서의 실행에도 많은 도움이 될 것 같습니다.

image

Matrix Multiplication in Candle:

use candle_core::{Device, Tensor};

fn main() -> Result<(), Box<dyn std::error::Error>> {
    let device = Device::new_cuda(0)?;

    let a = Tensor::randn(0f32, 1., (2, 3), &device)?;
    let b = Tensor::randn(0f32, 1., (3, 4), &device)?;

    let c = a.matmul(&b)?;
    println!("{c}");
    Ok(())
}

Open challenges in LLM research

Blog: https://huyenchip.com/2023/08/16/llm-research-open-challenges.html

image

MLOps 업계에서 유명하신 Chip Huyen님께서 현재 언어 모델에서 문제점 및 연구 진행 방향에 대해 블로그를 공유했습니다. 최근 거대 언어 모델의 중요성이 부각되면서 입문자에게 도움이 될 것 같습니다.

Research

Nougat: Neural Optical Understanding for Academic Documents

Website: https://facebookresearch.github.io/nougat/ ArXiv: https://arxiv.org/abs//2308.13418 GitHub: https://github.com/facebookresearch/nougat HuggingFace Demo: https://huggingface.co/spaces/ysharma/nougat

image image

Meta에서 연구원에게 꼭 필요한 과학 논문 분석 OCR 논문을 공개했습니다 (저는 직접 설치해서라도 사용할 것 같습니다 ㅋㅋㅋ).

과학 기술 연구의 대부분은 ArXiv 등에서 PDF 형태로 공유되는데 일반적인 OCR은 수식 및 테이블을 잘 추출하지 못하는 문제점이 있는데 해당 연구에서는 비교적 단순한 Encoder-Decoder 모델을 활용해서 논문 스캔을 입력으로 받았을 때 Markdown 형식으로 출력할 수 있는 모델을 만들었습니다.

데이터는 ArXiv 논문을 주로 사용했으며 아직까지 그림을 다루지 못한다는 단점이 있지만 PDF를 보고 LaTeX을 작성해야 하는 많은 연구원들에게 도움이 될 것이라고 믿습니다.

종이 및 조명의 왜곡이 심함에도 정확하게 LaTeX을 출력한 success case입니다. image

Figure 5의 그림은 생성할 수 없는 failure case입니다. image

Bayesian Flow Networks

ArXiv: https://arxiv.org/abs/2308.07037

(Unofficial) GitHub: https://github.com/Algomancer/Bayesian-Flow-Networks

image

nick-jhlee commented 1 year ago

Upcoming/Finished deadlines

AAAI 2024: submission 다들 수고하셨습니다! (현재 phase 1 reviewing 진행중) ICLR 2024: abstract due 09/22 9PM (KST) 추석은 저기 어딘가로,, AISTATS 2024: abstract due 10/07 9PM (KST) (left out srry: CHI 2024, AAMAS 2024, ALT 2024, EACL 2024)

Misc. OPODIS 2023: 09/08 (AoE)

NeurIPS 2023 Author Notification: ~ 09/22 언저리..? (다들 잘되길 기원드릴게요 ㅠㅠ)

News

Papers

Transformers as Support Vector Machines

LLM Theory에 다들 관심을 주시면.. ㅎㅅㅎ

지금 매우매우 핫하면서 (at least in theory community), 개인적으로 이제는 LLM theoretical foundation이 나올 때가 되었다고 생각이 듭니다. 이게 좀 더 major한 NLP community와 같이 소통하면서 연구를 하면 매우 meaningful한 결과들이 많이 나올것 같습니당

jwlee-neubla commented 1 year ago

Cloud TPU v5e for large-scale AI inference

Next 2023에서 TPU v5e를 공개했습니다. TPUv5의 lite version이고, TPUv4i의 후속작입니다. Tensor Core 1개 - 197TFLOPS, HBM2 1개 - 16GB, 819GBps, no twisted torus, no OCS Single chip으로 13B 모델까지 돌릴 수 있고, 256개로(1 Pod) 2T 까지 돌릴 수 있다고 주장 Google이 서비스로 이용할 sLLM이 주요 타겟이 아닐까 예상해봅니다.

https://cloud.google.com/blog/products/compute/how-cloud-tpu-v5e-accelerates-large-scale-ai-inference?hl=en

image image image image
nick-jhlee commented 1 year ago

Technical notes on "Bayesian Flow Networks" by Dr. Sam Power (Univ of Bristol)

https://twitter.com/sp_monte_carlo/status/1694704443814457536?s=20