Open nogawanogawa opened 12 months ago
GPT4は非常に高性能なのに、乗算など簡単な計算などで著しく精度が落ちるのはなぜか?という問いについて研究した論文。
この研究を通じて人間とTransformerの学習・推論に対する方法論や性質の違いや、計算能力を向上させるための今後の新たなTransformerのアーキテクチャに対して提案している。
平たく言うと、人間は下記のような多段推論をして問題を解くが、Transformerはこのような思考はできないのでは?
下記の3つのタスクに対して性能を検証
次元数など、問題が複雑になるほど著しく精度劣化する。
GPT3をファインチューンした結果。 学習データ時に含まれていた程度の複雑さなら解決できるが、その問題解決能力を汎化してより複雑な問題を回答することはできない
Transformerは文章全体から、マスクを埋めるような、与えられた文章全体の情報から統計的パターンを生み出し、回答を生成することはできるが、乗算のような多段ステップの推論構成が必要なタスクはアーキテクチャ的に難しい。
また、Transformerは出力と入力特徴に大きく依存するタスクにおいて、その相関を見て入力を直接マップするような出力をすることがある。これは、多段推論を行わず、単純な相関関係をもとに推論しているということの裏付けになる。
例えば下記の図の通り、複雑な問題でも部分的にはあっていることがままある。
複数のステップで学習・推論したモデルを組み合わせた新しいTransformerのアーキテクチャを考えたら計算能力などが向上するのではないか?
https://arxiv.org/abs/2201.11675
John Pougué-Biyong, Akshay Gupta, Aria Haghighi, Ahmed El-Kishky
WSDM 2023
符号付きグラフはある集団のメンバー間の賛成・反対のモデル化に用いられてきた。 ノードは人を表し、エッジの正(賛成)・負(反対)は合意の状態を表す。
従来の手法の問題点は、2人の個人間の関係を同意(+)または不同意(-)の二値で還元してしまうことである。 フランス人の二人は、それぞれ別々のチームを応援しているかもしれないが、ワールドカップではフランス代表を応援することが予想される。このように、賛成反対は異なる側面(トピック)の言説があると考えられる。
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. https://github.com/wantedly/machine-learning-round-table/issues/200
What
話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!