jungwoo-ha / WeeklyArxivTalk

[Zoom & Facebook Live] Weekly AI Arxiv 시즌2
973 stars 41 forks source link

[20210829] Weekly AI ArXiv 만담 #22

Closed jungwoo-ha closed 3 years ago

jungwoo-ha commented 3 years ago
ghlee3401 commented 3 years ago

Paper

image image

image image

hollobit commented 3 years ago

Tesla AI day (8/19)

(한글자막 1편) https://www.youtube.com/watch?v=Ah-TMrKSvic (한글자막 2편) https://www.youtube.com/watch?v=7NCkxV_vMdY

가트너의 2021년도 emerging technology hype cycle (8/24)

관련 링크 : https://www.gartner.com/smarterwithgartner/3-themes-surface-in-the-2021-hype-cycle-for-emerging-technologies/

2021년도 emerging technology hype cycle

세레브라스 시스템즈(Cerebras Systems), 인간 뇌 크기의 AI 모델을 구현할 수 있다는 시스템 개발 (8/25)

  • https://www.tomshardware.com/news/worlds-largest-chip-unlocks-brain-sized-ai-models-with-163-million-core-cluster?fbclid=IwAR2D6z9V6mlVLoVvyculceUaqEeUoyMza-1AKC-zKzskpbhrviiEhs1XbHc

  • https://cerebras.net/system/ 성능

  • 85만개 코어 시스템을 192개까지 연결해 1억 6200만 AI 코어 모델을 만들 수

  • 최대 가능한 120조개의 파라미터 AI 모델을 지원

  • 1750억개 파라미터를 사용하는 GPT-3 모델 500배 규모까지도 지원 가능

  • GPT-3를 하루만에 훈련시킬 수 있다는 루머로 추정한 비교 : GPT-3 학습에 필요한 컴퓨팅 성능이 3.114E23 FLOPS(floating-point operations per second, 1초당 수행할 수 있는 부동 소수점 연산 횟수)이고, 이론적으로 28 TFLOPS(테라 FLOPS) 용량의 V100 GPU 서버에서 355년이 걸린다고 하는 수준

  • 이걸 기준으로 역산해보면 V100 GPU를 129,575개 장착해 돌리는 수준과 같다고

  • 다른 통계로는 ....

  • CS-2 캐비넷 하나당 4-5백만달러 정도 한다고 하니 200 캐비넷으로 구성된 브레인 사이즈가 8-10억달러, 1조원 정도 되네요. F-35 전투기 5-6대 가격.

  • 전력도 .. 캐비넷당 피크 전력 25 kW 쓴다니까 200 곱하면 5 MW 인데 결국은 이게 모두 열로 방출될 것이라, 근처에 지역난방 시스템이라도 구축해야 한다.

  • V100을 800만원 기준으로 했을때도 13만개를 구매하면 1조 정도 되네요. 1000만원 가격 기준으로 하면 1.3조 정도되구요. 약간 떨어지는 성능의 RTX 3090 TI를 15만대 연결한다고 가정하면 3750억 정도로 가격은 떨어진다

  • 근데 V100을 13만대 쌓아서 돌리려면 높이 12.5km x 길이 7.5km x 넓이 2.86km 짜리 구조물이 필요하고, 소비 전력량은 71.5 MW가 필요하다는게 단점이다

북한, 인공지능 기술로 금 가격 예측

[고학수 칼럼] ‘공정한 인공지능’의 어려움

20 QUIRKY AND INTERESTING MACHINE LEARNING INTERVIEW QUESTIONS

  • https://www.analyticsinsight.net/20-quirky-and-interesting-machine-learning-interview-questions/
    1. What is the similarity between Hadoop and K?
    2. If a linear regression model shows a 90% confidence interval, what does that mean?
    3. A single-layer perceptron or a 2-layer decision tree, which one is superior in terms of expressiveness?
    4. How can a neural network be used for dimensionality?
    5. Name two utilities of the intercept term in linear regression?
    6. Why do a majority of machine learning algorithms involve some kind of matrix manipulation?
    7. Is time series really a simple linear regression problem with one response variable predictor?
    8. Can it be mathematically proven that finding the optimal decision trees for a classification problem among all decisions trees is hard?
    9. Which is easier, a deep neural network or a decision tree model?
    10. Apart from back-propagation, what are some of the other alternative techniques to train a neural network?
    11. How can one tackle the impact of correlation among predictors on principal component analysis?
    12. Is there a way to work beyond the 99% accuracy mark on a classification model?
    13. How can one capture the correlation between continuous and categorical variables?
    14. Does k-fold cross-validation work well with time-series model?
    15. Why can’t simple random sampling of training data set and validation set work for a classification problem?
    16. What should be a priority, a model accuracy or model performance?
    17. What is your preferred approach for multiple CPU cores, boosted tree algorithm, or random forest?
    18. What algorithm works best for tiny storage, logistic regression, or k-nearest neighbor?
    19. What are the criteria to choose the right ML algorithm?.
    20. Why can’t logistic regression use more than 2 classes?

How to avoid machine learning pitfalls: a guide for academic researchers

  • https://arxiv.org/abs/2108.02497
  • 머신 러닝 연구의 해야 할 일과 하지 말아야 할 일 (Lones)
  • 학계에서 ML 연구를 수행하는 동안 그리고 ML 연구를 수행하는 학생을 감독하는 동안 배운 교훈

2 Before you start to build models 3 How to reliably build models 4 How to robustly evaluate models 5 How to compare models fairly 6 How to report your results 7 Final thoughts

nick-jhlee commented 3 years ago

드디어(?) 표절 사건이 터졌습니다... "Imitation is the sincerest form of flattery" 실사판

Screen Shot 2021-08-29 at 10 04 24 PM

같아봐야 얼마나 같을까요? ㅎㅎㅎㅎ image

(저 분 ECCV도.... 걍 상습범이신듯...?)

jungwoo-ha commented 3 years ago

또다른 Long-tail + Noisy label: Robust Long-Tailed Learning under Label Noise