币界网消息、RAEv2オープンソースプロジェクトは、Adobe Research、オーストラリア国立大学(ANU)、ニューヨーク大学(NYU)のシェセナンチームなどの機関によって共同で発表され、収束速度が10倍向上し、80回の訓練で前世代の800回の記録を超えました。新バージョンは、従来の変分自己符号化器(VAE)を置き換える拡散モデルの画像再構築方式として、初代の低品質な再構築、標準的な無分類器誘導(CFG)の使用不可、収束の遅さといった課題を解決しています。ImageNet上では、わずか80回の訓練で1.06のグローバルFID(GFID)スコアを達成しています。研究チームは、アーキテクチャ設計において三つのコア最適化を実現し、多層表現方式を採用、エンコーダの最後のK層の出力を直接加算し、下層サブスペースの構造を保持しています。新アーキテクチャはまた、表現自己符号化器と表現整列(REPA)の補完メカニズムを明らかにし、生成タスクにおける性能を向上させています。テスト結果によると、GFIDが2未満の指標を達成するには、初代モデルは177回の訓練が必要でしたが、新アーキテクチャはわずか35回で済みます。
RAEv2オープンソース:収束速度10倍向上、80ラウンドの訓練で前世代の800ラウンド記録を超える