Open jungwoo-ha opened 1 year ago
GitHub: https://github.com/huggingface/candle
HuggingFace에서 Rust 언어 기반의 Candle 딥러닝 프레임워크를 출시했습니다. Torch와 유사하지만 상대적으로 기능이 적은 것으로 보이는데 Python을 사용할 수 없는 embedded 또는 millisecond-level latency가 요구되는 환경에서 모델 추론을 하는데 많은 도움이 될 것 같습니다.
내부를 들여봤을 때 Rust와 CUDA 사이에 불안정한 wrapper API에 의존하고 있어 production에 사용하기에는 문제가 있을 것으로 생각되지만 robotics 등 Python으로 인한 memory 및 latency overhead가 부담스러운 환경에서 사용해볼 수 있을 것 같습니다.
Rust는 WASM과 호환성이 매우 좋아 웹브라우저에서의 실행에도 많은 도움이 될 것 같습니다.
Matrix Multiplication in Candle:
use candle_core::{Device, Tensor};
fn main() -> Result<(), Box<dyn std::error::Error>> {
let device = Device::new_cuda(0)?;
let a = Tensor::randn(0f32, 1., (2, 3), &device)?;
let b = Tensor::randn(0f32, 1., (3, 4), &device)?;
let c = a.matmul(&b)?;
println!("{c}");
Ok(())
}
Blog: https://huyenchip.com/2023/08/16/llm-research-open-challenges.html
MLOps 업계에서 유명하신 Chip Huyen님께서 현재 언어 모델에서 문제점 및 연구 진행 방향에 대해 블로그를 공유했습니다. 최근 거대 언어 모델의 중요성이 부각되면서 입문자에게 도움이 될 것 같습니다.
Website: https://facebookresearch.github.io/nougat/ ArXiv: https://arxiv.org/abs//2308.13418 GitHub: https://github.com/facebookresearch/nougat HuggingFace Demo: https://huggingface.co/spaces/ysharma/nougat
Meta에서 연구원에게 꼭 필요한 과학 논문 분석 OCR 논문을 공개했습니다 (저는 직접 설치해서라도 사용할 것 같습니다 ㅋㅋㅋ).
과학 기술 연구의 대부분은 ArXiv 등에서 PDF 형태로 공유되는데 일반적인 OCR은 수식 및 테이블을 잘 추출하지 못하는 문제점이 있는데 해당 연구에서는 비교적 단순한 Encoder-Decoder 모델을 활용해서 논문 스캔을 입력으로 받았을 때 Markdown 형식으로 출력할 수 있는 모델을 만들었습니다.
데이터는 ArXiv 논문을 주로 사용했으며 아직까지 그림을 다루지 못한다는 단점이 있지만 PDF를 보고 LaTeX을 작성해야 하는 많은 연구원들에게 도움이 될 것이라고 믿습니다.
종이 및 조명의 왜곡이 심함에도 정확하게 LaTeX을 출력한 success case입니다.
Figure 5의 그림은 생성할 수 없는 failure case입니다.
ArXiv: https://arxiv.org/abs/2308.07037
(Unofficial) GitHub: https://github.com/Algomancer/Bayesian-Flow-Networks
AAAI 2024: submission 다들 수고하셨습니다! (현재 phase 1 reviewing 진행중)
ICLR 2024: abstract due 09/22 9PM (KST) 추석은 저기 어딘가로,,
AISTATS 2024: abstract due 10/07 9PM (KST)
(left out srry: CHI 2024, AAMAS 2024, ALT 2024, EACL 2024)
Misc. OPODIS 2023: 09/08 (AoE)
NeurIPS 2023 Author Notification: ~ 09/22 언저리..? (다들 잘되길 기원드릴게요 ㅠㅠ)
지금 매우매우 핫하면서 (at least in theory community), 개인적으로 이제는 LLM theoretical foundation이 나올 때가 되었다고 생각이 듭니다. 이게 좀 더 major한 NLP community와 같이 소통하면서 연구를 하면 매우 meaningful한 결과들이 많이 나올것 같습니당
Next 2023에서 TPU v5e를 공개했습니다. TPUv5의 lite version이고, TPUv4i의 후속작입니다. Tensor Core 1개 - 197TFLOPS, HBM2 1개 - 16GB, 819GBps, no twisted torus, no OCS Single chip으로 13B 모델까지 돌릴 수 있고, 256개로(1 Pod) 2T 까지 돌릴 수 있다고 주장 Google이 서비스로 이용할 sLLM이 주요 타겟이 아닐까 예상해봅니다.
https://twitter.com/sp_monte_carlo/status/1694704443814457536?s=20
News
ArXiv
DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants