Open ninopira opened 3 years ago
https://openai.com/blog/dall-e/
テキストを入力し、高い精度で画像を生成するモデル
リアルな画像だけでなく、イラスト風の画像や、幾何学模様のルールを見つけるIQテストや、地理情報を考慮した画像など幅広いジャンルの画像について高い精度で生成可能なモデルとして話題になった
論文は公開されていないがGPT3と同様のtransformerモデルである模様 Summary of approach and prior work には"DALL·E is a simple decoder-only transformer that receives both the text and the image as a single stream of 1280 tokens—256 for the text and 1024 for the image—and models all of them autoregressively"とも書かれている また、画像とテキストの関係性を学習する手法としてCLIPを用いている模様
いずれにせよ 論文が楽しみ
https://ai.googleblog.com/2021/01/google-research-looking-back-at-2020.html
Googleが2020年に行った研究のまとめ資料 Covid19、コンピュータビジョン、AutoMLなど非常に幅広い分野についての研究を行っておりGoogleの研究の凄さを感じる。 非常に長い記事なので、サラッと読むだけでも十分に面白い
個人的には"Looking Forward to 2021 and Beyond"で書いてある以下の3点に注力していくと書いてあることが興味深かった
特にResponsible AI developmentとAdvancing diversity, equity, and inclusion はML界隈外の人でも耳にする単語だと思うので、なおのことプロである我々はきちんとした理解やキャッチアップを行っていくことの必要性を感じた
https://paperswithcode.com/newsletter/3
Papers with Codeのニュースレターから、いろいろなタスクでTransformerを使った取り組み。画像生成や物体検知、点群処理などにも使われている。雨後の筍のごとく〇〇に使ってみた系の論文が出る様子は3年前くらいに〇〇GANが流行った時を彷彿とさせる。
個人的に、普通のニューラルネットワークはf(ax+b)(線形変換+活性化関数)を重ねる形で層を深くする一方で、Transformer(というかAttnetion)はf(ax+b)*g(cx+b)(入力同士をかける)を重ねるので表現力が大きくなりやすいのかなと思う。一方でこの高い表現力を十分に精度に結びつけるためには膨大な学習データが必要なのかな、とも思う。Attentionを利用したモデルの表現力が従来のNNと比べてなぜ優れているのかの研究が気になる。
https://www.slideshare.net/cvpaperchallenge/cvpaperchallenge-tips-241914101
コンピュータビジョンで論文読み会や研究に取り組む団体であるcvpaper.challengeの方による研究効率化Tips(200ページ!)。いろいろな研究室のTipsとして
などをまとめている(3年前に欲しかった、、!)。論文読み会以外にも、このような表に出づらいナレッジを共有してもらえるのは素晴らしい取り組みだし、ありがたい。
データサイエンティストが一世を風靡した(している?)のもこういった、物事を科学的に追求する際のスタイルが仕事にも有用だからだと思っている。その点で社会人として分析に携わる人が見てもためになると思う。
Clubehouseリンク