Команда Каймінга Хе з MIT нещодавно випустила ELF (Embedded Language Flows), мовну дифузійну модель, яка відходить від автографресивного підходу «передбачити наступний токен», що використовується в моделях у стилі GPT. Натомість ELF виконує генерацію тексту в неперервному просторі вбудовувань, перетворюючи на дискретні токени лише на фінальному кроці.
У бенчмарках безумовної генерації OpenWebText модель ELF-B із 105 млн параметрів досягла приблизно 24,1 perplexity генерації (Gen. PPL) при вибірці 32 кроки, випередивши кілька базових ліній дифузійних мовних моделей — як дискретних, так і неперервних. Зокрема, ELF-B потребувала лише приблизно 45 мільярдів тренувальних токенів — на порядок менше, ніж порівнювані методи, які зазвичай перевищують 500 мільярдів токенів.
Related News
3 перспективні альткоїни, які можуть започаткувати наступний ринковий ралі
100 мільйонів нових стартапів Thinking Machines представила інтерактивну модель ШІ в реальному часі, роблячи акцент на підході «говори — слухай — виконуй роботу».
Google: великі мовні моделі використовують для реальних атак, AI може обходити механізми захисту з двофакторною автентифікацією