Open AkihikoWatanabe opened 10 hours ago
後で個々のベンチマークとメトリックをまとめたい。
まあでもざっくり言うと、他のproprietaryモデルともおおむね同等の性能です、という感じに見える。個々のタスクレベルで見ると、得意なものと不得意なものはありそうではある。
スループットとかも、ProとGPT4oをパッと見で比較した感じ、優れているわけでもなさそう。Liteに対応するGPTはおそらくGPT4o-miniだと思われるが、スループットはLiteの方が高そう。
(画像は論文中からスクショし引用)
下記ポストは独自に評価した結果や、コストと性能のバランスについて言及している。
元ポスト:https://x.com/artificialanlys/status/1864023052818030814?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
各モデルのInputとOutput。テキスト生成だけでなく、画像、コード、動画生成を実施するモデルもあり、inputも基本的にマルチモーダルに対応している。
(図はテクニカルレポートより引用)
https://www.aboutamazon.com/news/aws/amazon-nova-artificial-intelligence-bedrock-aws?utm_source=amazon_science&utm_medium=linkedin&utm_campaign=nova&utm_content=O