Понимание Cerebras: вычислительная мощь стимулирует размышления ИИ, память усиливает агента в выполнении задач

Автор: Бен Томпсон

Мощность позволяет ИИ учиться думать, память — учиться выполнять работу.

На этой неделе, когда Cerebras вышла на биржу, последняя статья Бена Томпсона подробно объясняет: эволюция ИИ от “чатов” к “самостоятельному выполнению задач” изменила узкие места архитектуры чипов.

Вы общаетесь с豆包 ради скорости; когда Kimi Claw выполняет за вас задачу в течение 5 часов, ему всё равно, быстрее ли он на 3 секунды или медленнее на 30 секунд — важна ли скорость или способность запомнить контекст, поддерживать работу. Каждый шаг увеличивает рабочую память (KV Cache). GPU создан для “ожидания перед экраном”: при предзагрузке видеопамять простаивает, при декодировании — вычислительные ресурсы простаивают — половину времени он просто ждет.

Настоящая проблема — не в скорости вычислений, а в объеме хранения и скорости чтения. Более фундаментально, что долгосрочный агент превращает KV Cache из временного буфера в постоянную рабочую память. Тот, кто сможет сделать эту память дольше сохраняемой, с более высокой переиспользуемостью и меньшими затратами, — тот и возьмет ключ к экономике Agent.

Это важнее, чем показатели скорости.

Если говорить о времени выхода на рынок, то создание чип-компании к маю 2026 года — почти идеальный сценарий. Reuters в выходные сообщает:

Два источника сообщили Reuters в воскресенье, что под влиянием растущего спроса на акции этой AI-компании Cerebras Systems, в понедельник планируется увеличить объем и цену первичного публичного размещения (IPO). Источники сообщили, что компания рассматривает возможность повышения диапазона цены с первоначальных 115–125 долларов за акцию до 150–160 долларов, а количество акций — с 28 миллионов до 30 миллионов; поскольку информация не была публичной, оба анонимны.

Рост акций полупроводникового сектора в основном обусловлен AI — особенно потому, что рынок постепенно осознает: агенты (Agents) будут поглощать огромные вычислительные ресурсы (Compute). Но более широкая задача, на которую указывает Cerebras, — это то, что до сих пор нарратив о вычислительной мощности ИИ почти полностью связан с GPU и Nvidia; в будущем картина станет всё более гетерогичной (Heterogeneous).

Эпоха GPU

История о том, как GPU стал центром ИИ, давно известна, кратко:

  • Как пиксели на экране рисуются параллельно (Parallel process) — чем больше обработчиков, тем быстрее графика — так и вычисления ИИ: количество обработчиков прямо влияет на скорость.

  • Nvidia воспользовалась этим трендом: сделала графические процессоры программируемыми (Programmable), а с помощью полноценной экосистемы CUDA — доступной для всех разработчиков — распространила эту возможность.

  • Основное отличие графики и ИИ — в масштабах задач: модели гораздо больше текстур в видеоиграх. Это привело к двум цепным эволюциям: резкое увеличение объема высокопроизводительной памяти (HBM, High-bandwidth memory) на GPU; и значительным прорывам в межчиповой коммуникации (Chip-to-chip networking), позволяющим нескольким чипам работать как единая адресуемая система. Nvidia лидирует в обеих областях.

  • Основное применение GPU — обучение моделей, и это особенно важно для третьего пункта. Каждый шаг обучения — высоко параллелен внутри, но последовательен между шагами: перед переходом к следующему, все GPU должны синхронизировать результаты. Поэтому модель с триллионом параметров должна помещаться в память тысяч GPU, которые могут обмениваться данными как одна машина. Nvidia успешно решает обе задачи: сначала — контролируя поставки HBM, чтобы не было дефицита, и инвестируя в сетевые технологии.

Конечно, обучение — не единственная задача ИИ, есть ещё вывод (Inference). Он включает три основных этапа:

1. Предзагрузка (Prefill): кодирование всего необходимого для понимания большой языковой модели (LLM); это высокопараллельная задача, требующая мощных вычислений.

2. Декодирование первой части (Decode Part 1): чтение KV-кеша (KV Cache) — хранящего контекст и выводы предзагрузки — для вычисления внимания. Это узкоузкоспециализированный по пропускной способности последовательный этап, с переменным и растущим объемом памяти.

3. Декодирование второй части (Decode Part 2): прямое распространение (Feed-forward) на основе весов модели; также узкоузкоспециализированный последовательный этап, объем памяти зависит от размера модели.

Эти два этапа чередуются на каждом слое модели (они работают перекрестно, а не последовательно), то есть декодирование — последовательное и ограниченное пропускной способностью памяти (Memory-bandwidth bound). Каждый токен требует полного чтения двух разных пулов памяти: KV-кеша, который растет с каждым токеном, и весов модели. Оба должны быть полностью прочитаны для генерации одного токена.

GPU идеально справляется с этими требованиями: обеспечивает высокую вычислительную мощность для предзагрузки, достаточный объем HBM для KV и весов, а при нехватке памяти — объединяет память нескольких GPU через межчиповые соединения. Иными словами, архитектура, подходящая для обучения, подходит и для вывода — что подтверждается сделкой SpaceX и Anthropic. В официальном блоге Anthropic говорится:

«Мы подписали соглашение о использовании всей вычислительной мощности дата-центра SpaceX Colossus 1. Это даст нам более 300 МВт новых мощностей (более 220 тысяч Nvidia GPU). Это напрямую повысит качество обслуживания пользователей Claude Pro и Claude Max.»

SpaceX сохранил Colossus 2 — предположительно, для будущего обучения моделей и текущего вывода. Возможность одновременно выполнять обе задачи объясняется тем, что модели xAI пока не требуют огромных ресурсов; важнее то, что обучение и вывод могут выполняться на GPU. На самом деле, GPU, которые использовались в Colossus 1, изначально предназначались для обучения; их гибкость — огромный плюс.

Анализ Cerebras

Продукт Cerebras принципиально отличается. Хотя диаметр кремниевой пластины — 300 мм, “лимит ретикулы” (Reticle limit) — максимальная площадь экспонируемой области — около 26x33 мм. Это предел размера чипа; чтобы превысить его, нужно соединять несколько чипов через “промежуточный слой” (interposer), как делает Nvidia в B200. Cerebras разработала метод протяжки по “линии прорезки” (Scribe lines), позволяющий сделать из целой пластины один чип без медленных межчиповых соединений.

Результат — чип с фантастической вычислительной мощностью, огромным объемом SRAM и невероятной скоростью доступа. Например, последний WSE-3 содержит 44 ГБ встроенной SRAM и достигает пропускной способности 21 PB/с; тогда как H100 Nvidia — 80 ГБ HBM и 3,35 TB/с. То есть, у WSE-3 объем памяти чуть меньше, чем у H100, но пропускная способность памяти в 6000 раз выше.

Сравнение WSE-3 и H100 — потому что H100 — самый популярный чип для вывода, а Cerebras в этой области особенно силен. Можно обучать на Cerebras, но межчиповые сети у него не очень привлекательны, что ведет к тому, что большая часть мощности и памяти простаивают; а главное — он способен генерировать токены значительно быстрее GPU.

Однако ограничения при выводе тоже есть: если все данные помещаются в память чипа, скорость — максимальная. Но как только требования к памяти превышают возможности (больше модели или длиннее KV-кеш), Cerebras становится неэффективным, особенно учитывая цену. Технология “один целый кремний — один чип” создает сложности с высоким выходом годных чипов, что повышает стоимость.

Тем не менее, я считаю, что чипы в стиле Cerebras найдут рынок: сейчас компания подчеркивает скорость как важное качество для программирования — вывод требует генерации большого количества токенов, что ускоряет “мышление”. Но я считаю, что это временный сценарий, причина — чуть позже. Главное — сколько времени потребуется человеку, чтобы получить ответ. С ростом носимых устройств и других продуктов взаимодействие с ИИ станет критичным, и скорость генерации токенов — ключ к пользовательскому опыту.

Агентский вывод (Agentic Inference)

Ранее я выделял три ключевых этапа в эпоху LLM:

1. ChatGPT доказал практичность предсказания токенов.

2. o1 ввел концепцию вывода (Inference), где больше токенов — лучше ответ.

3. Opus 4.5 и Claude Code — первые практические агенты (Agents), использующие модели с инструментами, проверкой работы и выполнением задач.

Хотя все это — “вывод”, я считаю, что граница между “ответным выводом” (Answer inference) и “агентским выполнением задач” (Agentic inference) становится все более четкой. Cerebras ориентирована на “ответный вывод”; а в перспективе, я полагаю, архитектуры “агентского вывода” будут кардинально отличаться от путей Nvidia и других.

Ранее я говорил, что быстрый вывод для программирования — временный сценарий. Сейчас, при использовании LLM, человек все равно участвует: задает задачи, проверяет код, делает pull-запросы. Но в будущем всё это будет полностью автоматизировано. Тогда ИИ сможет работать независимо, без вмешательства человека.

Аналогично, решение задач агентским выводом — принципиально отличается от ответного. В ответном выводе важна скорость токенов; в агентском — память (Memory). Агенту нужна контекст, состояние, история. Часть данных — в активном KV-кеше, часть — в памяти или SSD, еще больше — в базах данных, логах, встраиваниях и объектах хранения. Ключевое — агентский вывод перестанет быть просто ответом GPU, а станет системой с многоуровневой памятью.

Это важный момент: такая память подразумевает компромисс — скорость против объема. И если в системе нет постоянного участия человека, задержки уже не критичны. Агент, работающий всю ночь, не заботится о задержке — важна только возможность завершить задачу. Если новые методы памяти позволят решать сложные задачи, небольшие задержки допустимы.

При этом, если задержка не важна, то стремление к максимально высокой вычислительной мощности и пропускной способности памяти (HBM) теряет смысл: более медленная и дешевая память (например, обычная DRAM) становится привлекательнее. Если вся система ждет ответа памяти, чипам не нужно самое передовое технологическое производство. Это вызовет кардинальные архитектурные изменения, но не означает исчезновения существующих подходов:

Обучение (Training): останется важным, и архитектуры Nvidia (высокая мощность, высокая пропускная способность, быстрая сеть) продолжат доминировать.

Ответный вывод (Answer inference): — важный, но меньший рынок, где очень важна скорость (например, Cerebras или Groq).

Агентский вывод (Agentic inference): — постепенно отделится от GPU. Недостатки GPU — трата памяти при предзагрузке, неэффективность при декодировании — станут очевидными. На смену придут системы с высокой емкостью и низкой стоимостью памяти, с “достаточной” вычислительной мощностью. На самом деле, скорость вызова инструментов CPU может оказаться важнее скорости GPU.

Эти категории по масштабам и значимости не равны. В частности, агентский вывод — самый перспективный рынок, потому что он не ограничен числом людей или временем. Сегодняшние агенты — это просто “красивый” ответный вывод; в будущем, настоящий агентский вывод — это выполнение задач компьютерами по указаниям других компьютеров, рынок которого не зависит от численности населения, а растет с расширением вычислительных ресурсов.

Выводы для агентского вывода

До сих пор, говоря о “росте с увеличением вычислительной мощности”, обычно подразумевали Nvidia. Но их преимущество во многом основано на задержке: их чипы очень быстры, но чтобы не простаивали, нужны огромные инвестиции в HBM и сеть. Если задержка перестанет быть критичной, преимущества Nvidia могут исчезнуть, и платить за них станет невыгодно.

Nvidia это понимает: компания запустила Dynamo — фреймворк для разборки задач вывода, а также выпускает отдельные продукты для памяти и CPU-стеллажей, чтобы расширить KV-кеш и ускорить вызов инструментов, сохраняя дорогие GPU занятыми. Но крупные облачные провайдеры, скорее всего, найдут альтернативы — в задачах агентского вывода, где GPU не так важны.

Между тем, в Китае есть всё необходимое для агентского вывода: быстрые GPU, CPU, DRAM и диски. Проблема — в обучении. Также, в задачах ответного вывода важна национальная безопасность (особенно военные приложения).

Интересный взгляд — космос (Space): медленные чипы делают “космические дата-центры” более реализуемыми. Во-первых, если память можно вынести наружу, чипы можно делать проще и охлаждать легче. Во-вторых, старые технологические процессы — больше физического размера — лучше противостоят космическому излучению. В-третьих, меньший расход энергии и тепловыделение. В-четвертых, меньшие технологические процессы — выше надежность, что важно для спутников, которые нельзя ремонтировать.

Генеральный директор Nvidia Хуанг часто говорит, что “закон Мура умер”; он подразумевает, что ускорение будет достигаться системными инновациями. Но когда агенты смогут действовать независимо от человека, самое важное — понять, что закон Мура уже не важен. Мы получаем больше вычислительных ресурсов, потому что понимаем: наши текущие мощности уже “достаточно хороши”.

NVDAX-3,89%
XAI-6,48%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено