22 июня 2026 года: акции американских производителей чипов резко выросли — индекс Philadelphia Semiconductor вырос на 6,42% за один день. Котировки Intel поднялись более чем на 10% благодаря новостям о партнерстве с Apple в производстве чипов. Американские депозитарные расписки TSMC прибавили 6,94% и закрылись на отметке $462,12, а акции Nvidia выросли почти на 3%. Этот рост отражает ускоряющийся сдвиг в отрасли: спрос на вычисления для искусственного интеллекта смещается от задач обучения к задачам инференса.
По данным отраслевых аналитиков, инференс сейчас составляет две трети общего спроса на вычисления в сфере ИИ, тогда как в 2023 году его доля была около одной трети. Ожидается, что к 2028–2030 годам этот показатель достигнет 70–85%. Такая структурная трансформация меняет основное поле конкурентной борьбы производителей чипов: теперь важнее не скорость GPU для обучения, а минимальная стоимость инференса и максимальная производительность чипа.
Мировой рынок чипов для инференса ИИ оценивается в $85,4 млрд в 2024 году и, по прогнозам, вырастет с $105,47 млрд в 2025 году до $570,77 млрд к 2033 году. Среднегодовой темп роста (CAGR) составляет 23,5% за этот период. Только облачный рынок чипов для инференса оценивается в $102,19 млрд в 2025 году, ожидается рост до $118,9 млрд в 2026 году и до $320,98 млрд к 2032 году. В то же время мировой рынок edge-чипов для ИИ (включая инференс и обучение) должен увеличиться с $34,4 млрд в 2026 году до $96 млрд к 2031 году.
В ходе этого цикла расширения баланс сил между типами чипов меняется тонко, но существенно. GPU остаются доминирующим игроком рынка благодаря спросу как на обучение, так и на инференс, и ожидается, что их среднегодовой темп роста составит 20% до 2031 года. Однако многие институты считают AI ASIC самым быстрорастущим сегментом. Аналитики JPMorgan прогнозируют, что рынок цифровых AI ASIC достигнет $60–70 млрд к 2026 году, а CAGR превысит 40–50% в ближайшие годы.
Особого внимания заслуживает возвращение CPU. Последние три года CPU находились на периферии дискуссий об ИИ, но взрывной рост спроса на инференс меняет эту ситуацию.
Почему CPU снова становятся ключевым элементом
Инференс и обучение ИИ принципиально различаются по вычислительной логике. Обучение требует массовых параллельных матричных операций — триллионы вычислений с плавающей точкой выполняются одновременно на тысячах ядер GPU, где эти процессоры наиболее эффективны. Инференс, особенно для агентных ИИ, включает организацию задач, вызов инструментов, многошаговое логическое рассуждение и последовательное принятие решений. Такие нагрузки зависят от сложного управления логикой и последовательной обработки, где CPU проявляют свои сильные стороны.
Совместное исследование Georgia Tech и Intel показало, что в сценариях агентного ИИ 50–90% задержки приходится на CPU, а не на вычислительный ускоритель — поскольку крупные модели должны вызывать плагины, выполнять поиск в интернете и обрабатывать многошаговую логику, что управляется CPU. Nvidia признала этот факт в марте 2026 года: руководитель Дион Харрис публично заявил, что «CPU становятся узким местом в рабочих процессах ИИ» — примечательное признание со стороны компании, построившей бизнес на лозунге «GPU — единственные чипы, необходимые для ИИ».
Изменение соотношения конфигураций наглядно демонстрирует эту тенденцию. При обучении ИИ соотношение CPU к GPU обычно составляет 1:8, основная нагрузка ложится на GPU. Но в эпоху инференса, по данным TrendForce, этот баланс быстро приближается к диапазону 1:1–1:2. Генеральный директор Intel Пэт Гелсингер отметил в отчете за первый квартал 2026 года, что для обучения обычно требуется 7–8 GPU на один CPU, а для инференса — 3–4 GPU на CPU, с перспективой перехода к балансу 1:1.
По оценкам генерального директора Nvidia Дженсена Хуана: каждый дата-центр GW-уровня нуждается примерно в 300 000 GPU Rubin и, исходя из 136 ядер на ARM CPU, около 221 000 CPU на GW. Это устанавливает новое соотношение CPU к GPU примерно 1:1,4. В сравнении с эпохой доминирования GPU статус CPU значительно вырос.
Преимущества GPU и сложности инференс-нагрузок
Несмотря на возвращение CPU, GPU сохраняют незаменимую роль в инференсе ИИ благодаря преимуществам в пропускной способности памяти и параллельной производительности.
Во время инференса LLM для генерации каждого токена требуется прочитать сотни миллионов или даже десятки миллиардов параметров — это классическая задача с высокой нагрузкой на память. CPU используют системную DDR-память с пропускной способностью обычно 50–100 ГБ/с. GPU применяют память GDDR6X или HBM, где пропускная способность превышает 800 ГБ/с; топовые GPU с HBM2e достигают 1,5 ТБ/с, что в 20 раз больше, чем у CPU. В инференсе модели Llama 3.1 8B решения на CPU обеспечивают лишь 819 токенов/с на задачу, тогда как кластер из 8 GPU достигает 46 841 токенов/с. При увеличении числа одновременных запросов производительность CPU резко падает с 819 токенов/с до 257 токенов/с, а кластер из 8 GPU практически не теряет производительности.
По плотности вычислений GPU предоставляют тысячи ядер CUDA для параллелизации, поддерживают низкоточные форматы FP4/FP8 и обеспечивают сотни терафлопс. CPU обычно работают с FP32 и дают 1–10 терафлопс.
Эти показатели подтверждают, что для сценариев инференса с высокой пропускной способностью и большим числом одновременных запросов — например, для масштабных облачных сервисов ИИ — GPU остаются оптимальным решением. Лидерство Nvidia в этом сегменте неоспоримо. По данным SemiAnalysis, в первом квартале 2026 года Nvidia занимала 92% рынка чипов для обучения ИИ и 78% рынка чипов для инференса. По оценке IDC, Nvidia контролирует около 81% рынка чипов для ИИ. Ожидается, что рынок ускорителей для ИИ достигнет $160 млрд в 2025 году и превысит $200 млрд в 2026 году, при этом расходы на инференс составят две трети.
Однако доля GPU в инференсе сталкивается с давлением — со стороны возвращения CPU, конкуренции специализированных ASIC и практических соображений по стоимости.
Контратака производителей CPU в инференсе
Переоценка роли CPU в инференсе приводит к заметному росту рыночной активности.
Рынок процессоров для дата-центров стремительно растет благодаря всплеску спроса на задачи генеративного ИИ. Ожидается, что его объем увеличится с $215 млрд в 2025 году до $656 млрд к 2031 году. По данным Guohai Securities, гипермасштабируемые дата-центры вступают в цикл обновления, а поставки серверных CPU вырастут на 25% в 2026 году.
AMD — один из главных бенефициаров этого тренда. Спрос на серверы для ИИ увеличил поставки CPU EPYC, а пятое поколение Turin заняло значительную долю рынка серверных процессоров. Ожидается, что серверный бизнес CPU AMD вырастет минимум на 50% в 2026 году. Аналитики Bernstein прогнозируют, что продажи флагманских процессоров EPYC могут увеличиться на 30% в 2026 году. На начало 2026 года Intel занимает около 60% рынка CPU для дата-центров, AMD — примерно 24%, Nvidia — около 6%. AMD также конкурирует на рынке AI GPU с ускорителями Instinct, что дает компании уникальное двойное позиционирование в эпоху инференса.
Intel активно корректирует свою стратегию. На выставке Computex в июне 2026 года новый генеральный директор Пэт Гелсингер объявил о возвращении CPU в центр внимания инференса, используя технологию 18A и архитектуры с разделением по стойкам. Инфраструктура ИИ переходит от «единого решения» к «сборке по принципу Lego». Процессоры Intel Xeon оснащены Advanced Matrix Extensions (AMX), которые ускоряют инференс для крупных языковых моделей с малым и средним числом параметров даже без GPU или других ускорителей ИИ.
Самый символичный сдвиг исходит от Nvidia. Компания, определившая эпоху ИИ через GPU, в 2026 году запустила линейки CPU Grace и Vera, причем Vera ориентирована на инференс и агентные нагрузки ИИ. Nvidia ожидает, что доход от CPU достигнет $20 млрд в 2026 году. Nvidia и Arm также выпустили отдельные CPU-продукты в 2026 году, официально открыв для GPU-гиганта вход на рынок процессоров.
ASIC и специализированные чипы: формирование третьего пути
Помимо дуализма GPU–CPU, ASIC (специализированные интегральные схемы) становятся самым быстрорастущим элементом рынка инференса.
TD Cowen прогнозирует, что доля коммерческих ускорителей снизится с примерно 91% в 2025 году до 75% в 2030 году, а доля кастомных ASIC вырастет с 9% до 25%. Поставки серверов с ASIC должны увеличиться на 44,6% в 2026 году, тогда как рост поставок серверов с GPU составит 16,1% — всего треть от роста ASIC.
Гипермасштабируемые облачные провайдеры ускоряют разработку собственных чипов для инференса. Google TPU, AWS Inferentia, Meta MTIA и LPU от Groq (Language Processing Unit) — все это ASIC, оптимизированные под инференс. Доход Broadcom от ИИ достиг $10,8 млрд во втором квартале 2026 года, рост составил 143% по сравнению с прошлым годом, а годовой прогноз — $56 млрд, увеличение на 180%. Ожидается, что Broadcom займет около 60% рынка кастомных чипов для ИИ.
Эта тенденция указывает на переход рынка чипов для инференса от «доминирования универсальных GPU» к диверсифицированной структуре «GPU + CPU + ASIC». GPU решают задачи интенсивного обучения и масштабного инференса, CPU управляют организацией задач и системным контролем, а ASIC обеспечивают максимальную энергоэффективность для специфических нагрузок инференса.
Структура затрат и новые экономические реалии инференса
В конечном итоге выбор чипа для инференса сводится к основному вопросу: стоимости за миллион токенов.
В обучении основными метриками являются точность модели и время обучения, а допустимый уровень затрат выше. Инференс — это непрерывная, высокочастотная производственная активность: каждый API-запрос и пользовательский запрос генерируют прямые расходы. Это меняет конкуренцию чипов от «абсолютной производительности» к «эффективной пропускной способности на единицу стоимости».
GPU требуют более высоких стартовых инвестиций в оборудование. Например, AMD MI300X стоит $10 000–$15 000, а Nvidia H100 — $25 000–$40 000. Однако GPU обеспечивают более низкую стоимость вычислений на единицу: облачные GPU-инстансы генерируют токены на 40–60% дешевле за секунду, чем CPU-инстансы. CPU выгодны для одиночных задач с низкой конкуренцией и минимальной задержкой, поскольку не требуют дополнительных вложений в оборудование.
Но при масштабировании инференса маржинальные издержки решений на CPU быстро растут. При увеличении числа одновременных запросов CPU вынуждены распределять задачи через ротацию временных срезов, а накладные расходы на переключение контекста возрастают экспоненциально. Это означает, что для крупных инференс-развертываний стартовые инвестиции в GPU или ASIC часто обеспечивают лучший долгосрочный ROI благодаря более высокой пропускной способности и меньшей стоимости на единицу вычислений.
Заключение
Рост спроса на инференс с одной трети до двух третей вычислений ИИ отражает фундаментальный сдвиг в конкурентной борьбе производителей чипов.
Для Nvidia ее почти монопольное положение на рынке обучения (около 90% доли) в ближайшее время останется неизменным, но борьба за дополнительную долю рынка инференса будет усиливаться. New Street Research дает самый агрессивный прогноз: доля Nvidia в инференсе может снизиться до 20–30% к 2028 году. Даже более консервативная оценка Bloomberg Intelligence — сохранение 70–75% доли к 2030 году — признает, что поставки ASIC растут гораздо быстрее, чем GPU.
Для AMD и Intel возросший спрос на CPU в эпоху инференса — это структурная возможность. Двойная стратегия AMD с CPU EPYC и GPU Instinct, а также постоянные обновления процессоров Intel Xeon с технологией 18A нацелены на освоение этого окна возможностей.
Для облачных провайдеров и разработчиков ИИ-приложений расширение выбора чипов открывает новые возможности для оптимизации затрат. От универсальных GPU до кастомных ASIC, от инференса на CPU до ускорения на GPU — выбор аппаратной платформы будет все больше зависеть от специфики каждой задачи: размера модели, требований к задержке, уровня конкуренции и бюджета.
Спрос на вычисления для инференса растет быстрее, чем на обучение. Этот переход от обучения к инференсу меняет всю цепочку отрасли — от проектирования чипов до архитектуры дата-центров. GPU не потеряют своей позиции, но теперь они уже не единственный ответ.




