RAEv2 спільно випущений командою Adobe Research, ANU та NYU Ше-Сай-Нін, використовує дифузійну модель замість VAE для відновлення зображень, вирішуючи проблеми низької якості первинного відновлення, неможливості CFG та повільної збіжності. 80-раундовий ImageNet GFID 1.06, GFID менше 2 за 35 раундів, попередня версія — 177 раундів. Основні інновації включають багаторівневе представлення: додавання виходу останніх K шарів кодувальника для збереження базової структури та введення механізму REPA для доповнення, що підвищує здатність до генерації.

CoinNetwork

2026-05-22 11:11:50

Генерація анотацій у процесі

Звіт з CoinWorld, відкритий проект RAEv2, спільно запущений дослідницькою командою Adobe Research, Австралійським національним університетом (ANU) та Нью-Йоркським університетом (NYU), зменшив час збіжності у 10 разів, а 80 раундів тренування перевищують попередній рекорд у 800 раундів. Новий варіант є рішенням для реконструкції зображень за допомогою дифузійної моделі, яка замінює традиційний варіаційний автокодер (VAE), вирішуючи проблеми низької якості реконструкції, неможливості використання стандартного безкласового керування (CFG) та дуже повільної збіжності. На ImageNet достатньо 80 раундів тренування для досягнення глобального показника FID (GFID) у 1.06. Дослідницька команда реалізувала три ключові оптимізації в архітектурі, використовуючи багаторівневу схему представлення, додаючи безпосередньо вихід останніх K шарів кодувальника, зберігаючи структуру підпростору нижнього рівня. Нова архітектура також пояснює взаємодоповнювальний механізм між автоенкодером та узгодженням представлень (REPA), що покращує продуктивність у задачах генерації. Тести показали, що для досягнення GFID менше 2, початкова модель потребує 177 раундів, тоді як нова архітектура — лише 35 раундів.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

13 лайків

Нагородити
13
10
Репост
Поділіться

Прокоментувати

Додати коментар

PaperSculptureSquidward

· 12год тому

Як REPA та багаторівневе подання співпрацюють, очікуйте детального аналізу у статті