[20220227] Weekly AI ArXiv 만담 - 41회차

Good News About the Carbon Footprint of Machine Learning Training

http://ai.googleblog.com/2022/02/good-news-about-carbon-footprint-of.html
IEEE Computer - https://www.techrxiv.org/articles/preprint/The_Carbon_Footprint_of_Machine_Learning_Training_Will_Plateau_Then_Shrink/19139645
ML 학습시 계산 비용, 주로 carbon footprint, 온실 가스 배출량 등의 증가 우려가 있어 왔음
NLP 모델을 만들고 탄소 발자국을 줄일 수 있는 모범 사례를 조사
ML 작업 부하의 탄소(및 에너지) 발자국을 크게 줄이는 4가지 핵심 사례 - 4M: 에너지 및 탄소 발자국을 줄이기 위한 모범 사례
- 모델(Model). sparse model과 같은 efficient ML 모델 아키텍처를 선택하면 ML 품질을 향상시키면서 계산을 3~10배 줄일 수 있다
- 기계(Machine). 범용 프로세서와 비교하여 ML training 에 최적화된 프로세서 및 시스템을 사용하면 성능과 에너지 효율성을 2~5배 향상시킬 수 있다
- 기계화(Mechanization). 클라우드에서 컴퓨팅하면 에너지 사용량과 배출량이 1.4~2배 감소
- 지도 최적화(Map optimization). 클라우드 기반일 경우, 고객은 클린 에너지를 사용하는 위치를 선택할 수 있으므로 총 탄소 발자국을 5~10배 더 줄일 수 있음
이 네 가지 방법을 함께 사용하면 에너지를 100배, 배출량을 1000배 줄일 수 있음

논문에서 사용한 용어 및 에너지 및 carbon footprint 추정 방법

CO2 등가 배출량(CO2e)은 이산화탄소(CO2)와 메탄, 아산화질소 등 기타 모든 온실 가스를 설명합니다.
미터법 톤은 일반적인 CO2e 측정 단위이며 tCO2e로 약칭되며 1000킬로그램(2205파운드)을 나타냅니다.
메가와트시(MWh)는 에너지를 측정합니다. 1MWh는 1시간 동안 지속적으로 사용되는 1,000,000와트의 전기와 같습니다. 1테라와트시(TWh)는 1,000,000MWh에 해당합니다.
PUE(전력 사용 효율성)는 데이터 센터 효율성에 대한 업계 표준 메트릭으로, 총 에너지 사용량(냉각과 같은 모든 오버헤드 포함)을 데이터 센터의 컴퓨팅 장비에서 직접 소비하는 에너지로 나눈 비율로 정의됩니다. 2020년 평균 산업 데이터 센터 PUE는 1.58(58% 오버헤드)인 반면 클라우드 제공업체의 PUE는 ~1.10[5]입니다.
탄소 강도(MWh당 tCO2e)는 데이터 센터 에너지의 청정도를 측정한 것입니다. 2020년 데이터 센터의 평균 탄소 배출량은 MWh당 0.429tCO2e였지만 일부 Google 데이터 센터에서는 MWh당 총 CO2e가 5배 더 낮을 수 있습니다.

training task을 수행하는 서버의 에너지 소비는 사용된 프로세서 수와 교육 실행 기간에 비례

𝑀𝑊ℎ = 𝐻𝑜𝑢𝑟𝑠 𝑡𝑜 𝑡𝑟𝑎𝑖𝑛 × 𝑁𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑃𝑟𝑜𝑐𝑒𝑠𝑠𝑜𝑟𝑠 × 𝐴𝑣𝑒𝑟𝑎𝑔𝑒 𝑃𝑜𝑤𝑒𝑟 𝑃𝑟𝑜𝑐𝑒𝑠𝑠𝑜𝑟

"프로세서"에 모든 서버 구성 요소(로컬 메모리, 네트워크 링크 등 포함)가 포함됩니다.

데이터 센터는 PUE에서 캡처한 하드웨어(예: 전압 변환 손실, 냉각 장비)에 전력을 공급하고 냉각하는 데 에너지를 소비합니다. 따라서 에너지 소비에 대한 최종 공식은

𝑀𝑊ℎ = (𝐻𝑜𝑢𝑟𝑠 𝑡𝑜 𝑡𝑟𝑎𝑖𝑛 × 𝑁𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑃𝑟𝑜𝑐𝑒𝑠𝑠𝑜𝑟𝑠 × 𝐴𝑣𝑒𝑟𝑎𝑔𝑒 𝐴𝑣𝑒𝑟𝑎𝑔𝑒 𝑃𝑜𝑤𝑒𝑟 𝑝𝑒𝑟 𝑃𝑜𝑤𝑒𝑟) × PUE

그런 다음 에너지 공급의 탄소 강도를 곱하여 에너지를 탄소로 전환

𝑡𝐶𝑂2𝑒 = 𝑀𝑊ℎ × 𝑡 𝐶𝑂2𝑒 𝑝𝑒𝑟 𝑀𝑊ℎ

GLaM과 GPT3 비교를 이용한 평가

GLaM은 GPT-3보다 7배 더 많은 매개변수를 사용하는 새로운 언어 모델. carbon footprint는 14배 감소

AI 생성 예술 작품이 저작권 보호를 받을 수 있습니까?

https://news.artnet.com/art-world/us-copyright-office-rejects-artificial-intelligence-art-2076830

"Creativity Machine"을 대신하여 Steven Thaler이 제출
"기계에서 실행되는 컴퓨터 알고리즘에 의해 자율적으로 생성되었습니다"라는 내용의 저작권 사무소 메모를 첨부
미국에서 'Human Authorship' 부족 사유로 거절 (두번째 거절)
반드시 저작권자가 인간만이 될 수 있는가에 대한 논쟁. 특허법과 동일한 논쟁

Arxiv (Audio and Speech Processing)
- S3T: Self-Supervised Pre-training with Swin Transformer for Music Classification
  - ICASSP2022 / ByteDance AI Lab Speech & Audio Team / Music classification
  - S3T : a self-supervised pre-training method with Swin Transformer for music classifiction 제안
    - 왜 S3T 인가 했더니 a Self-Supervised pre-trainging method with Swin Transformer 라서 (S가 세 개)
  - Music classification에서 Swin Transformer와 self-supervised를 결합하여 사용한 첫 논문
    - HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection 이 논문도 swin transformer를 사용하는데 ByteDance 에서 나온 논문
  - Method
    - 기본적으로 MoCo + Swin Transformer 라고 보면 될 듯
      - MoCo : Momentum Contrast for Unsupervised Visual Representation Learning
      - Swin Transformer : [Swin Transformer: Hierarchical Vision Transformer using Shifted Windows]
      - (https://arxiv.org/pdf/2103.14030.pdf)
    - music data augmentation : Random Multi-crop / Random Frequency Masking / Random Time Masking / Time Warping, Random Shifting 등을 사용
  - Dataset
    - GTZAN : 1,000개 (각 30초) music clip, 10개 장르
    - FMA : 8,000개 (각 30초 내외) music clip, 8개 장르
    - Magna TAgATune(MTAT) : 25,863개 (각 29초, 5,223 노래에서 추출) 188개 tag
  - Results
- 그 외 주목할 만한 논문 (학회/소속/키워드)
  1. Closing the Gap between Single-User and Multi-User VoiceFilter-Lite
    - Arxiv / Google / VoiceFilter
    - multi-user VoiceFilter-Lite 모델 제안 (VoiceFilter-Lite는 speaker-conditioned voice separation model)
    - 기존의 multi-user VoiceFilter-Lite는 singer-user 모델 보다 음성 인식, 화자 판별 task에서 성능이 떨어지고 일반화 성능이 떨어짐
    - AttentionNet을 독립적으로 학습시켜 overfitting을 막고, FiLM으로 조건을 넣어주어 모델 사이즈는 줄이면서 성능은 높임
  2. Neural Speech Synthesis on a Shoestring: Improving the Efficiency of LPCNet
    - ICASSP 2022 / Amazon / Vocoder, LPCNet
    - on device 용 speech synthesis 모델인 LPCNet을 향상 시킨 논문
    - 코드 : https://github.com/xiph/LPCNet/
  3. DRVC: A Framework of Any-to-Any Voice Conversion with Self-Supervised Learning
    - ICASSP 2022 / Ping An Technology / Voice Conversion, Any-to-any, Low resource
    - Disentangled Representation Voice Conversion (DRVC)
    - any-to-any voice conversion은 training data에 없는 목소리로 변환하는 task
    - 이전 연구는 disentangle-based model인데 content 정보를 얻기 위해서 speech dimension을 낮추었는데, 이 dimension을 결정하기 어려움
    - 이 논문에서는 dimension을 낮추는 대신 Cycle Reconstruct Loss와 Same Loss를 사용
  4. Phase Continuity: Learning Derivatives of Phase Spectrum for Speech Enhancement
    - ICASSP 2022 / Yonsei & Naver / Enhencement
    - 노이즈가 많은 환경에서 phase를 estimate하기 어려움
    - phase reconstruction을 위한 이전 연구에서는 축에 대해서 phase spectrum의 distortion을 줄이는 방향으로 학습
    - 주파수축 뿐만 아니라 시간축까지 고려하는 clean speech와 enhanced speech 사이의 phase continuity를 최소화하는 방향으로 학습
    - phase spectrum의 derivative를 반영하는 loss인 phase continuity loss (PLC) 제안

News
- 정부, '인공지능 윤리 정책 포럼' 출범...대한민국 AI 윤리 정책 방향 제시해 나갈 계획
- 윤리, 기술, 교육 세 분과로 나누어 접근한 것이 의미있는 듯, ai 윤리를 현실에 적용할 수 있는 논의가 진행되기를!!
- 다음 주에 하정우 소장님 오시면 자세히 여쭤보는걸로
- 이수만 SM 총괄 프로듀서, 카이스트 교수 됐다
  - KAIST AI 연구원 산하 메타버스 연구소에서 SM 연예인들의 캐릭터와 KPOP 등을 메타버스로
  - 메타버스라는 플랫폼 공간도 콘텐츠가 굉장히 중요할텐데, 콘텐츠와 플랫폼을 모두 발전시킬 수 있는 계기가 되었으면 좋겠네요
- Inside the Lab: Building for the metaverse with AI 다시보기
  - https://about.fb.com/news/2022/02/inside-the-lab-building-for-the-metaverse-with-ai/
  - 메타 AI의 비전에 대한 설명와 여러 기술에 대한 소개, 렉스 프리드먼과 르쿤 교수님과 벤지오 교수님 대화
- Technology is revolutionizing how intelligence is gathered and analyzed – and opening a window onto Russian military activity around Ukraine
  - 러시아의 우크라이나 침공을 사람들이 틱톡같은 걸로 찍어서 영상 업로드
  - 틱톡 영상이 세계 각지로 알려지면서 여러 분석가와 언론인들이 영상을 참고함
  - 정보(Data)가 너무 많으니 잘 식별하거나 처리하기 위해 AI를 활용하기도
- Schmidt Futures Launches AI2050 to Protect Our Human Future in the Age of Artificial Intelligence
  - 구글 전 CEO 에릭 슈미트가 1억 2500만 달러를 기금으로 해서 인류에 공헌하는 AI 연구를 지원하고 시상한다.
  - 전문가 자문단 중에는 최예지 박사님도 포함
Arxiv
- https://search.zeta-alpha.com/
- 논문과 깃헙을 모두 검색할 수 있는 ai 연구 검색 사이트

Singularity: Planet-Scale, Preemptive and Elastic Scheduling of AI Workloads

Arxiv: https://arxiv.org/abs/2202.07848v2

Screenshot (19)

Microsoft에서 Singularity라는 Kubernetes 경쟁제품을 출시한다는 논문을 냈습니다. 아쉽지만 아직 소스코드는 공개되지 않았습니다.

Large-scale AI를 하시는 많은 분들께서 Kubernetes와 NVIDIA Driver를 호환하는데 많은 어려움을 겪고 계실 것으로 생각되는데 아직 코드가 공개되지 않아 확실치는 않지만 기존 PyTorch 코드를 수정하지 않고도 Elastic & distributed & large scale training을 할 수 있다고 합니다.

또한, 아직 대학원에 계시거나 small-to-medium-scale AI를 하시는 분들도 서버 고장 등으로 인해 며칠동안의 학습 결과가 없어지거나 하나의 서버는 사용하지 않는데 다른 서버에서는 GPU가 부족한 것을 겪어보셨을 것으로 생각됩니다. 많은 유저에게 도움이 될 것 같습니다.

Graph Data Augmentation for Graph Machine Learning: A Survey

GitHub: https://github.com/zhao-tong/graph-data-augmentation-papers

Arxiv: https://arxiv.org/abs/2202.08871v1

Graph Neural Network에 대해 data augmentation 방법론을 정리한 review paper가 나왔습니다. 저자들에 의하면 GNN에서 data augmentation에 대한 review paper는 기존에 없었다고 하는데 (저와 같은) GNN 비전문가에게 GNN에 대한 연구 트렌드 및 공부를 시작할 위치를 찾는데 도움이 될 것 같습니다. 인용한 논문이 잘 정리되어 있고 결론은 아직 general하게 적용되는 graph augmentation은 많이 없고 domain-specific knowledge에 기반한 augmentation이 필요하다는 내용입니다.

Screenshot (20)

Natural Language Processing with Transformers

https://www.oreilly.com/library/view/natural-language-processing/9781098103231

Code: https://huggingface.co/transformersbook

HuggingFace 엔지니어들이 직접 쓴 Transformer 책이 출간되었습니다.

딥러닝 분야는 일반적으로 논문과 블로그를 통해 배우게 되지만 검증된 전문가가 쓴 책을 시간내어 읽는 것도 도움이 된다고 생각됩니다. 특히, NLP 분야에서는 HuggingFace는 Transformer 분야에서 가장 많이 사용되는 라이브러리로 많은 자연어 연구자에게 도움이 될 것 같습니다.

jungwoo-ha / WeeklyArxivTalk