RAEv2 з відкритим кодом: швидкість зближення збільшена у 10 разів, 80 епох тренування перевищують рекорд попередньої версії у 800 епох

robot
Генерація анотацій у процесі
Звіт з CoinWorld, відкритий проект RAEv2, спільно запущений дослідницькою командою Adobe Research, Австралійським національним університетом (ANU) та Нью-Йоркським університетом (NYU), зменшив час збіжності у 10 разів, а 80 раундів тренування перевищують попередній рекорд у 800 раундів. Новий варіант є рішенням для реконструкції зображень за допомогою дифузійної моделі, яка замінює традиційний варіаційний автокодер (VAE), вирішуючи проблеми низької якості реконструкції, неможливості використання стандартного безкласового керування (CFG) та дуже повільної збіжності. На ImageNet достатньо 80 раундів тренування для досягнення глобального показника FID (GFID) у 1.06. Дослідницька команда реалізувала три ключові оптимізації в архітектурі, використовуючи багаторівневу схему представлення, додаючи безпосередньо вихід останніх K шарів кодувальника, зберігаючи структуру підпростору нижнього рівня. Нова архітектура також пояснює взаємодоповнювальний механізм між автоенкодером та узгодженням представлень (REPA), що покращує продуктивність у задачах генерації. Тести показали, що для досягнення GFID менше 2, початкова модель потребує 177 раундів, тоді як нова архітектура — лише 35 раундів.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 10
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
PaperSculptureSquidward
· 12год тому
Як REPA та багаторівневе подання співпрацюють, очікуйте детального аналізу у статті
Переглянути оригіналвідповісти на0
GateUser-b6d80ba0
· 05-22 11:38
Додавання останніх K шарів кодувальника має відтінок пропускного з’єднання ResNet, але застосовується у латентному просторі
Переглянути оригіналвідповісти на0
NeonVortexInTheSmog
· 05-22 11:26
Розширене відновлення + сумісність з CFG, технічний борг погашається одразу
Переглянути оригіналвідповісти на0
CyberBridgeDeepPerspective
· 05-22 11:26
35 раундів GFID<2, ця ефективність неймовірно радує алхіміків
Переглянути оригіналвідповісти на0
RevokingPermissionsOnARainy
· 05-22 11:26
Нарешті хтось серйозно взявся за вирішення проблеми розмиття реконструкції VAE, сльози на очах
Переглянути оригіналвідповісти на0
HoldingPositionsIsLikeTending
· 05-22 11:26
Adobe+ANU+NYU три компанії об'єдналися, ресурси максимально залучені
Переглянути оригіналвідповісти на0
CandleAfterTheRain
· 05-22 11:26
Багаторівневе представлення зберігає нижню структуру, цей дизайн дуже детальний, а не просто глибина стосу.
Переглянути оригіналвідповісти на0
BitByBitBenny
· 05-22 11:26
GFID 1.06 лише 80 раундів, попередня версія 177 раундів безпосередньо перервана, швидкість зближення стрімко зростає
Переглянути оригіналвідповісти на0
GateUser-0f8d377b
· 05-22 11:26
Команда Сєсайняна поєднала відновлення та генерацію, механізм взаємодоповнення REPA має потенціал.
Переглянути оригіналвідповісти на0
Salt-BakedSentimentChart
· 05-22 11:26
Модель дифузії використовується як VAE, ідея дійсно смілива
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено