jungwoo-ha / WeeklyArxivTalk

[Zoom & Facebook Live] Weekly AI Arxiv 시즌2
972 stars 41 forks source link

[20220410] Weekly AI ArXiv 만담 - 48회차 (DALLE-2 특집) #48

Closed jungwoo-ha closed 2 years ago

jungwoo-ha commented 2 years ago

News

ghlee0304 commented 2 years ago
nick-jhlee commented 2 years ago
epicure commented 2 years ago

DALL-E 2 행간 읽기

DALL-E 1 되돌아 보기

2021년 1월 5일 Open AI 블로그 포스팅1월6일의 트윗 그리고 Stella Rose Biderman의 댓글

image

2021년 1월 7일 EleutherAI의 1년 회고 by Connor Leahy, Eric Hallahan, Leo Gao, Stella Biderman 속 The Revival of #art 와 The Underground Studio, #the-faraday-cage 그 이후 DALL-E와 CLIP에 자극을 받은 창작 커뮤니티가 2021년 6월 까지 펼친 흥미로운 이야기 Alien Dreams: An Emerging Art Scene by Charlie Snell

Scaling Laws for Neural Language Models (2020년 1월 23일) → GPT-3: Language Models are Few-Shot Learners (2020년 5월 28일), 약 4개월

Scaling Laws for Autoregressive Generative Modeling (2020년 10월 28일) → DALL-E 1: (2021년 1월 6일) 약 2개월

DALL-E 1·2의 1저자 Aditya Ramesh는 누구일까?

https://twitter.com/model_mechanic image 동명이인이 섞여 있는 레퍼런스1, 레퍼런스2, 레퍼런스3

so i started training the big model and then uh you know time went by and you know every once in a while i'd upload the latest checkpoint to an internal slackbot that we have and it's usually quite busy and everyone at work likes uh messing with the bot so um yeah so toward the end of training people started trying crazier and crazier things um and some of those ended it up as like full-blown visuals in the blog so um having that slack channel available and you know a large number of people just trying stuff out to see what worked and what didn't um uh was really helpful i think Ilya actually um found out that image to image translation work uh that's super cool i think the other one we were that i was really impressed about were the text examples where it's actually able to like create text like sign with the text of open ai or back prop as in the paper i'm kind of wondering like...

거의 모든 것에 대한 보간

2022년 4월 6일/13일 DALL-E 2 Hierarchical Text-Conditional Image Generation with CLIP Latents by Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen 에서 Aditya Ramesh의 트윗을 보고, 이게 그걸 말했던 것이구나 싶었던 이미지 두 장

image image image image

Figure 4의 두 번째 행의 이미지는 처음 CDN에 페이퍼를 업로드한 후 트윗을 했던 내용을 반영한 이미지, Figure 5도 업데이트된 부분

처음에 DALL-E 2를 텍스트 프롬프트를 활용해 CLIP으로 디퓨전 모델을 가이드할 때 그간 탐색이 된 여러 방법을 효과적으로 활용해서 CLIP이 다루지 못했던 것을 해결하는 정도로 처음에 생각했다면, 최근 타임라인에 올라오는 추가적인 정보와 영상을 보며 그 평가를 다시하게 됐습니다. 특히 1저자인 Aditya Ramesh의 트윗을 보며 좀 더 관점을 확장해 볼 수 있었는데요. 정말 앞으로 기존의 아이디어를 짜깁기해서 새로운 것을 탐색하는 발상에는 이러한 기술이 광범위하게 적용될 듯 합니다. DALL-E 2가 보간하는 중간 단계에 있는 것들의 의미가 예전에 비해 훨씬 높은 수준이 됐습니다. 이제 보간(interpolation)은 어느 정도 기계에게 맡기고 인간은 그 지휘를 하거나 외삽(extrapolation)을 잘 하는 쪽으로 서로를 보완해 볼 수 있지 않을까요? 인간은 시각적인 자극에 영향을 많이 받다 보니, 아이디어를 스케치나 그림으로 표현해 보는 것은 다시 생각에 피드백 되곤 합니다. 그러므로 이건 단순히 예술/디자인 등에만 영향을 주는 것이 아니라 발상 방식 그 자체에 영향을 줄 수 있습니다. 당연하지만 생성한 것 사이의 보간도 된다는 것이죠. 또한 이미지 프롬프트 처럼 텍스트 프롬프트만 아니라 어떤 이미지를 넣어주면 그걸 DALL-E가 재해석(인코드 후 디코드)해서 표현할 수 있을 겁니다. 그리고 그런 임베딩된 이미지 사이를 보간할 수 있죠. DALL-E 2 논문의 Figure 3 참고. 물론 이미지 프롬프트로 재해석한 이미지와 텍스트 프롬프트로 생성한 이미지 사이의 보간도 되겠죠. text-davinci-002의 [insert]를 보면 글에서도 이런 보간을 할수 있다는 것을 확인할 수 있습니다. https://openai.com/blog/gpt-3-edit-insert/

좀 더 자세한 영상과 포스팅 그리고 포스팅에 등장하는 이미지의 레퍼런스

레퍼런스 관련 글: Generative Design 창작자를 위한 머신러닝에 관한 안내, 교육에 관한 함의 (2017년 3월)

Karen X. Cheng의 DALL-E 2 인스타 라이브

image

하나의 프롬프트에 대응하는 10개 이미지 생성에 20초 소요(어떻게 MLOps를 했을지?). 역디퓨전 중간 과정은 보여주지 않는 방식. 라이브 후반부에는 패션 디자인이나 UI 디자인 등에 아이디어를 내보는 접근을 시도

거의 모든 것에 대한 보간을 지탱하는 기술

일야 서츠키버의 최근 트윗(2022.04.11.)이 "the biggest lesson from deep learning is that you just gotta believe" 였고(The Bitter lesson에 빗댄건가요?), 그렉 브록만은 4월 12일에 It’s time to become an ML engineer https://blog.gregbrockman.com/its-time-to-become-an-ml-engineer 안에 DALL-E 2를 활용해 이미지를 넣은 글쓰기를 했습니다. 이걸보니... 이제 작년과 올해 라이언 몰튼이 한 접근, Meta의 Make-A-Scene( https://www.youtube.com/channel/UCdPgz7lMf-XQg8wqLWOPBPg )의 접근 같은 것이 더 높은 fidelity를 가지고, 그렇다고 diversity에 손실도 별로 없이 펼쳐지겠군요. https://moultano.wordpress.com/2021/07/20/tour-of-the-sacred-library/ (2021.07.20.) https://moultano.wordpress.com/2022/03/24/depth-of-field/ (2022.03.24.) 그런데 이런 것 보다도 더 소스라치게 피부에 와닿는 것은 OpenAI는 다른 곳과 다르게 바로 거대 모델을 배포하고 서비스를 만들어 버린다는 거에요. 그렉 브록만이 스트라이프의 CTO였던 영향일까요? 2022년 3월 말 4월 초에 있었던 위력 과시 경쟁(NVidia H100, DeepMind Chinchilla, Microsoft Jigsaw, Google PaLM, OpenAI DALL-E 2 등)이 마치 앞으로 다가올 사건의 징후처럼 느껴지며 머지 않아 GPT-4에 해당하는 것과 그것이 야기할 충격을 만나게 될 것 같단 생각을 하게 됐습니다. 지난 2월 AlphaCode 페이퍼의 Broader Impacts에 슬그머니 들어있던 Advanced AI Risks 단락이 자꾸 머리 속에 맴도네요. 가장 첨병에 있는 사람들이 어쩌면 가장 피부로 느끼고 있는 것일지도요.

"장기적으로 코드 생성은 고등 AI 리스크로 이어질 수 있습니다. (AI의) 코딩 능력은 재귀적으로 스스로를 개선할 수 있는 시스템으로 이어질 수 있으며, 이는 점점 더 발전된 시스템으로 빠르게 이어질 수 있습니다." - AlphaCode의 Advanced AI Risks

커뮤니티의 따라잡기

2021년 5월 Diffusion Models Beat GANs on Image Synthesis by Prafulla Dhariwal(DALL-E 2의 2저자), Alex Nichol(DALL-E 2의 3저자), guided-diffusion 소스 및 체크 포인트 공개가 디스코 디퓨전으로 이어지는 이야기의 시작이 됨.

A frankensteinian amalgamation of notebooks, models and techniques for the generation of AI Art and Animations

https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb

image

GLIDE와 DALL-E 2 페이퍼에서 이러한 커뮤니티의 활동을 인식하고 영향을 받았음을 확인해 주는 인용 (Katherine Crowson

image image image

2022년 4월 20일 Katherine Crowson이 1저자인 VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance 가 EleutherAI에서 발표됨 AK의 관련 트윗

TITAA #28: Visual Poetry, Humans and Humanoids by Lynn Cherny 에서 더 자세한 이야기를 살펴볼 수 있음. 그 외의 커뮤니티의 상호 기여들.

창작 커뮤니티에게 계산 자원을 지원한 stability.ai, EleutherAI, LAION

image

이러한 지원을 하는 사람들 중 Emad의 DALL-E 2에 관한 포스팅

image

관련 글

무척 중요한 DALL·E 2 Preview - Risks and Limitations 문서의 의미 그리고 예고와 실현의 패턴

DALL·E 2 Preview - Risks and Limitations에서 Red Team의 활동 등 읽어보면서 무척 감탄했는데, 거대 모델의 Misuse에 관한 내용으로 당분간은 교과서로 쓰일만하단 생각이 들 정도였어요. DALL-E 2를 구현한 것만 아니라 이 문서에서 다룬 맥락을 보면, OpenAI가 GPT-3를 발표한 후 쌓아온 경험치가 대단하단 것을 느낄 수 있었습니다. 무척 꼼꼼해요!

참, DALL-E 2에 관한 무척 흥미로운 부분은 DALL·E 2 Preview - Risks and Limitations https://github.com/openai/dalle-2-preview/blob/main/system-card.md 에 있는데요. 무척 양이 많은 문서지만 중요한 내용을 많이 담고 있어요. 일단 NFT 포함 상업적 사용은 불허입니다. 발상용으로만 쓸 수 있다고 해야할까요. 그리고 데이터셋이나 기타 다른 방법을 통해 생성의 자유를 일부 제한하지만, 부작용 발생(따라서 이로 인한 악명이 발생하지 않도록)에 대한 세심한 대처를 준비해 두었습니다. 3월에 발표한 Lessons Learned on Language Model Safety and Misuse https://openai.com/blog/language-model-safety-and-misuse/ 가 의미있는 포석이기도 했고요. 이제 이런 보고서가 나온다는 것은 이어서 뭔가 터뜨릴 준비가 됐단 신호로 볼 수 있겠습니다. (Gopher 때도 그랬어요. Language modelling at scale: Gopher, ethical considerations, and retrieval https://www.deepmind.com/blog/language-modelling-at-scale-gopher-ethical-considerations-and-retrieval 에서 미스 유즈 문제를 유독 열심히 다뤘죠. 그리고 4개월 지나 PaLM이 나왔죠. 문제를 알린다 == 문제를 푼다 == 다른 문제를 발견한다 ~~ 반복, 메타버그 세계관)

커뮤니티에서도 시간은 걸리겠지만 따라가긴 할 겁니다. 지난 1년여간 시도했던 커뮤니티의 아이디어를 OpenAI에서 가져간 흔적도 보이고요. (GLIDE 및 DALL-E 2 논문에 그런 크레딧을 표현하긴 했어요) 다만, 모델의 개발 및 학습만 아니라 그 배포와 사용에 관해서, 이 DALL·E 2 Preview - Risks and Limitations는 앞으로 당분간 기준점이 될 문서가 되리라 봅니다. 강력한 성능을 가진 모델을 테스트할 때 이렇게 소규모로 테스트를 하는 과정을 두는 것, 리스크를 최소화 하기 위해 제약 조건을 두는 것 등은 오픈소스 커뮤니티라 할지라도 어떻게 하기 어려운 부분일 수 있겠다 싶어요. (오픈소스는 아니지만 미드저니에서도 Init Image 허용에 관한 비슷한 논의가 있습니다)

"DALL-E 2 프리뷰에 대한 액세스가 포괄적으로 허가되지 않으므로 특정 그룹에 우선적으로 혜택이 돌아갈 수 있다. 이러한 제한에도 불구하고, 우리는 제한된 접근이 전반적으로 이 기술의 올바른 출발점이라고 믿는다. 현재 전개 단계에서는 플랫폼으로부터 정확한 위험 벡터에 대해 가능한 한 많은 신호를 얻는 것을 목표로 할 것이다."

관련해서 3월 3일의 Lessons Learned on Language Model Safety and Misuse를 다시 정독해 봐야겠습니다. DALL-E 2를 소규모 인원에게 제한적으로 사용하게 하던 시기와 딱 맞물리네요. 3월 3일에 블로그에 올린 전략을 3월 한 달간 진행한 것 처럼 보입니다. DALL-E 2 프리뷰 문서를 보면 DALL-E 2 첫 모델을 1차 Red Team이 2022년 3월 9일 ~ 2022년 3월 28일 테스트 했고, 지금 공개 된 것은 이 때의 피드백을 바탕으로 한 그 다음 모델이라는 것을 알 수 있습니다.

3월 3일의 Lessons Learned on Language Model Safety and Misuse 는 다시 Economic Impacts Research at OpenAIA Research Agenda for Assessing the Economic Impacts of Code Generation Models로 연결.

Lucidrains의 DALL-E 2를 따라가 보는 구현도 커뮤니티의 latent diffusion을 참고하며 시작 https://github.com/lucidrains/dalle2-pytorch

예술, 미디어아트계의 반응

image image image image image

앞으로 펼쳐질 일이 무척 기대되는 매일

J. C. R. 리클라이더가 1960년에 쓴 <인간-컴퓨터 공생> https://groups.csail.mit.edu/medg/people/psz/Licklider.html 중 1.2 Between "Mechanically Extended Man" and "Artificial Intelligence" 단락은 이렇게 맺습니다. (신승백 작가님의 번역)

인간과 컴퓨터의 공생은 아마도 복잡한 기술 시스템의 궁극적인 패러다임은 아닐 것이다. 적절한 시기에 전자 또는 화학 기계가 현재 우리 인간이 독점하고 있다고 생각하는 대부분의 기능에서 인간의 뇌를 능가할 것임은 전적으로 가능한 일이다. 그럼에도 불구하고 인간과 컴퓨터가 친밀한 관계로 함께 일하며 주요한 지적 발전이 이루어질 꽤 긴 과도기가 있을 것이다. 15년 혹은 10년, 500년일수도 있지만, 그 기간은 인간 역사에서 지적으로 가장 창의적이고 흥미로워야 할 것이다. - J. C. R. Licklider, 'Man-Computer Symbiosis'

어쩌면 요즘이 그런 시기가 아닐지?

인간 - 기계 - 인간이 함께 할 수 있는 것에 관한 발상이 중요, 그리고 그걸 증강하는 커뮤니티와 플랫폼. 제럴드 와인버그가 40여년 전에 프로그래밍 심리학에서 이야기 했듯, 이 또한 사람이 하는 일. (그것이 야기할 수 있는 문제는? - DALL·E 2 Preview - Risks and Limitations의 행간을 읽었을 때) DALL-E 2 맥락과 관련지어 볼 이야기 중에 현재 Anthropic에 있는 Chris Olah의 작업( https://openai.com/blog/microscope , https://openai.com/blog/multimodal-neurons , 그리고 distill.pub )과 연결되는 부분은?

창작의 자유와 제한 - 그리고 문제를 해결해서 만든 문제를 해결하는 스타트업

MidJourney나 DALL-E 2의 예에서 볼 수 있듯이 유저가 모델이 표현할 수 있는 최대한의 것을 활용하는데는 복잡한 제약이 따름. MidJourney의 경우는 비용을 더 지불하는 프리미엄 유저에게 이러한 민감한 부분에 관해 좀 더 조종할 수 있는 권한(Init Image)을 주는 방향을 모색 중이고, DALL-E 2의 경우는 Preview - Risks and Limitations 의 예에서 보듯이 매우 방어적으로 접근하기 때문에 앞으로 예술가가 이러한 거대 모델을 활용할 때는 (그것을 직접 만들 수 없으므로) 기존의 창작 매체와는 다른 결의 제약이 존재할 가능성이 있음. 만약 그 제약을 풀었을 때는 굉장히 복잡한 이슈가 생길 수 있고, GPT-3 등이 야기한 문제를 다루는 Anthropic이 생겼던 선례를 보더라도, DALL-E 2 등을 준비할 때 RedTeam을 운영해 본 경험과 misuse를 다루는 경험을 살린 스타트업이 OpenAI로 부터 갈래지어 나올 가능성에 관해 생각해 볼 수 있음.

생산량 - 기계를 부리는 접근 중 하나

Ben Barryhttps://archive.org/details/1111101000-robots 작업 등을 통해 알 수 있듯이,

image

일정 수준 이상의 모델로 많은 것을 만들다 보면 그 중에는 필연적으로 좋은 것이 들어있을 가능성이 높음 (OpenAI Playground의 Best of 또는 AlphaCode의 접근 등), 계산 비용이 들긴 하지만 짧은 시간에 일정 수준 이상의 것을 많이 생성할 수 있고 거기에서 큐레이션 하고 방향을 조정하며 원하는 것(또는 의외의 것)을 얻는데 까지 점근해 갈 수 있음.

관련 소식 챙겨 보기

image
hollobit commented 2 years ago

DALL-2의 편향성 문제와 LGM의 문제

https://www.vox.com/future-perfect/23023538/ai-dalle-2-openai-bias-gpt-3-incentives

  • OpenAI에서도 이미 알고 공지하고 있는 이슈 - https://github.com/openai/dalle-2-preview/blob/main/system-card.md?utm_source=Sailthru&utm_medium=email&utm_campaign=Future%20Perfect%204-12-22&utm_term=Future%20Perfect

  • "충분한 가드레일이 없으면 DALL·E 2와 같은 모델을 사용하여 광범위한 기만 및 기타 유해 콘텐츠를 생성할 수 있으며 사람들이 콘텐츠의 진위를 보다 일반적으로 인식하는 방식에 영향을 미칠 수 있습니다. DALL·E 2는 또한 훈련 데이터에서 다양한 편향을 상속하고 그 출력은 때때로 사회적 고정 관념을 강화합니다"

  • 충분하게 위험을 통제할 수 없는 사항이기에 선택한 방법 : 현재로서는 약 400명(OpenAI의 직원과 이사회 구성원, 엄선된 학자 및 창작자 혼합)만이 비상업적 목적으로만 DALL-E 2를 사용

  • AI 산업의 잘못된 인센티브 문제를 어떻게 해결해야 하나 ?

    • AI 안전 및 연구 회사인 Anthropic의 팀에서는 Large Generative Models에서의 이런 문제점을 지적 - https://arxiv.org/pdf/2202.07785.pdf
    • 경제적, 과학적, 명성이라는 대규모 생성 모델을 개발하고 배포하는 세 가지 주요 동기, 반대로 모델을 확장하는 데 필요한 재정적 비용과 엔지니어링 인재, AI 안전 문제, 모델 배포의 표준 및 규범 부족이라는 세 가지 진입 장벽
    • 대규모 모델이 확산되고 있고, 산업계/학계의 격차가 늘어나고 있고, 피해와 논쟁이 증가하고 있는 현실
  • Anthropic 연구팀 백서에서 제안하는 해결 방향

    • 민간 부문과 학계 간의 컴퓨팅 비대칭 감소
    • 모델 '레드 팀' 방법에 대한 지식 향상
    • 새로운 거버넌스 구조 및 정부 개입 탐색 및 프로토타입
    • 모델 평가에 사용할 수 있는 도구 개선
    • 능력의 급격한 점프(급격한 능력 확장)에 대한 이해 향상
  • OpenAI가 DALL-E 2에 대해 한 것처럼 모델의 위험을 문서화하는 사례들이 계속 늘어나야하며, 일반화시켜야 함

DALL-E 2의 한계

  • Santa Fe Institute의 복잡성 교수이자 Artificial Intelligence: A Guide For Thinking Humans의 저자인 Melanie Mitchell 은 동일성, 인접성, 숫자, 오목/볼록, 폐쇄성/개방성과 같은 개념에 대한 이해를 테스트하는 일련의 도전 과제인 Bongard Problems 을 언급
  • "우리 인간은 기본 개념에 대한 핵심 지식과 유연한 추상화 및 유추 능력으로 인해 이러한 시각적 퍼즐을 풀 수 있습니다. Bongard는 이러한 능력이 인간 지능에 얼마나 중요한지 깨달았습니다. 그러나 Bongard가 이러한 퍼즐을 기계 지능에 대한 도전 과제로 제안한 지 60년이 지났지만 여전히 이러한 문제를 일반적인 방식으로 해결할 수 있는 AI 시스템은 없습니다. 그런 인공지능 시스템이 만들어지면 인간 수준의 지능에서 그 분야가 실질적인 발전을 하고 있다고 확신할 수 있다. 그때까지 저는 머신러닝과 빅데이터의 인상적인 제품에 감탄할 것이지만, 그것들을 일반 지능을 향한 진보로 착각하지는 않을 것입니다."
veritas9872 commented 2 years ago

Jigsaw: Large Language Models meet Program Synthesis

1400x788_Jigsaw_animation_hero_no_logo

논문 및 공식 블로그 링크 공유해드립니다.

Blog: https://www.microsoft.com/en-us/research/blog/jigsaw-fixes-bugs-in-machine-written-software/

Arxiv: https://arxiv.org/abs/2112.02969

Solving ImageNet: a Unified Scheme for Training any Backbone to Top Results

Alibaba DAMO에서 ImageNet학습을 위한 방법론에 대한 논문이 출간되었습니다.

image

Additional data 없이 single model로 학습한 결과 중 모든 모델에 대해 SOTA를 획득했다고 주장하는데 모델 구조보다 학습 방법론이 더 중요하다는 것을 보여주는 것 같습니다.

Arxiv: https://arxiv.org/abs/2204.03475

GitHub: https://github.com/Alibaba-MIIL/Solving_ImageNet