Команда Каймінга Хе випустила мовну дифузійну модель ELF із 45 млрд токенів для навчання

Команда Каймінга Хе з MIT нещодавно випустила ELF (Embedded Language Flows), мовну дифузійну модель, яка відходить від автографресивного підходу «передбачити наступний токен», що використовується в моделях у стилі GPT. Натомість ELF виконує генерацію тексту в неперервному просторі вбудовувань, перетворюючи на дискретні токени лише на фінальному кроці.

У бенчмарках безумовної генерації OpenWebText модель ELF-B із 105 млн параметрів досягла приблизно 24,1 perplexity генерації (Gen. PPL) при вибірці 32 кроки, випередивши кілька базових ліній дифузійних мовних моделей — як дискретних, так і неперервних. Зокрема, ELF-B потребувала лише приблизно 45 мільярдів тренувальних токенів — на порядок менше, ніж порівнювані методи, які зазвичай перевищують 500 мільярдів токенів.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів