GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (Paper Explained)
Google builds a 600 billion parameter transformer to do massively multilingual, massive machine translation. Interestingly, the larger model scale does not c...
https://www.youtube.com/watch?v=1VdEw_mGjFk
article
tpu 사용 방법. 좀 지난 예제이긴 한데..
이런 일이 하루에 보통 최소 열개는 넘게 있습니다. 이런 일들에 대해서는 고민하는 시간이 아깝습니다. 고민없이 바로 합니다. 그 자리에서 바로 하거나, TODO 리스트에 넣어두고 시간 나면 바로 합니다. 보통 그날 TODO에서 빠지거나 늦어도 이삼일내로는...
paper
논문 박태성님과 Jun-Yan의 새로운 I2I 연구입니다. Image manipulation과 style-transfer를 동시에 커버하는데 encoder를 스와핑하는 독특한 방법을 쓰네요. 박태성님 Adobe 인턴가서 쓴 연구라고 합니다. NeurIPS에 제출한듯
video
오오오 이 비디오 너무 짱!