22 червня 2026 року: Акції виробників чипів у США різко зросли — Індекс напівпровідників Філадельфії піднявся на 6,42% за один день. Вартість акцій Intel зросла більш ніж на 10% на новині про партнерство з Apple у виробництві чипів. Депозитарні розписки TSMC подорожчали на 6,94% і закрилися на рівні $462,12, а Nvidia додала майже 3%. Це зростання ринку відображає прискорення структурних змін у галузі: попит на обчислення для штучного інтелекту зміщується з етапу навчання до етапу інференсу.
Згідно з галузевим аналізом, інференс нині становить дві третини від загального попиту на обчислення для ШІ, тоді як у 2023 році ця частка дорівнювала приблизно одній третині. До 2028–2030 років очікується зростання до 70%–85%. Ця структурна зміна визначає нову основну сферу конкуренції між виробниками чипів: від питання «у кого найшвидший GPU для навчання» до «чий чип забезпечує найнижчу загальну вартість інференсу та найвищу пропускну здатність».
Глобальний ринок чипів для інференсу ШІ оцінюється у $85,4 млрд у 2024 році. Прогнозується зростання з $105,47 млрд у 2025 році до $570,77 млрд у 2033 році із середньорічним темпом зростання (CAGR) 23,5% на прогнозований період. Лише ринок чипів для інференсу у хмарних сервісах оцінюється у $102,19 млрд у 2025 році, очікується зростання до $118,9 млрд у 2026 році та до $320,98 млрд у 2032 році. Водночас, світовий ринок edge-чипсетів для ШІ (включно з інференсом і навчанням) має зрости з $34,4 млрд у 2026 році до $96 млрд у 2031 році.
У цьому циклі розширення баланс сил між типами чипів змінюється поступово, але суттєво. GPU залишаються домінуючим гравцем на ринку, їх підтримує попит як на навчання, так і на інференс. Очікується, що середньорічний темп зростання GPU становитиме 20% до 2031 року. Водночас багато інституцій вважають AI ASIC найшвидше зростаючим сегментом. Аналітики JPMorgan оцінюють, що ринок цифрових AI ASIC досягне $60–70 млрд у 2026 році, із середньорічним зростанням понад 40–50% у найближчі роки.
Ще більш показовим є відродження процесорів CPU. Останні три роки CPU відігравали периферійну роль у наративах про ШІ. Проте стрімке зростання попиту на інференс суттєво змінює цю картину.
Чому CPU знову у центрі уваги
Інференс і навчання у ШІ принципово різняться за логікою обчислень. Навчання передбачає масивні паралельні матричні операції — трильйони обчислень з плаваючою комою виконуються одночасно на тисячах ядер GPU, де графічні процесори мають перевагу. Інференс, особливо для агентних моделей ШІ, включає оркестрацію завдань, виклик інструментів, багатоступеневе логічне мислення та послідовне прийняття рішень. Такі навантаження значною мірою залежать від складного логічного контролю та послідовної обробки, де CPU мають перевагу.
Спільне дослідження Технологічного інституту Джорджії та Intel показало: у сценаріях агентного ШІ 50%–90% затримки спричиняється саме CPU, а не обчислювальним прискорювачем, оскільки великі моделі мають викликати плагіни, здійснювати пошук у мережі та виконувати багатоступеневу логіку — і все це координується CPU. У березні 2026 року сама Nvidia визнала цей факт: виконавчий директор Діон Гарріс публічно заявив: «CPU стає вузьким місцем у робочих процесах ШІ» — це вражаюче зізнання від компанії, яка тривалий час вважала, що «GPU — єдині чипи, необхідні для ШІ».
Зміни у співвідношенні конфігурацій наочно ілюструють цю тенденцію. Для навчання ШІ співвідношення CPU до GPU зазвичай становить екстремальні 1:8, і основне навантаження припадає на GPU. Але у добу інференсу TrendForce повідомляє, що співвідношення швидко звужується до 1:1 або 1:2. Генеральний директор Intel Пет Гелсінгер на конференції щодо підсумків першого кварталу 2026 року зазначив: для навчання зазвичай потрібно 7–8 GPU на один CPU, а для інференсу достатньо 3–4 GPU на один CPU, і є перспектива досягти балансу 1:1.
Якщо звернутися до оцінок генерального директора Nvidia Дженсена Хуана: кожен дата-центр масштабу GW потребує близько 300 000 GPU Rubin і, виходячи зі 136 ядер на ARM CPU, приблизно 221 000 CPU на один GW. Це встановлює нове співвідношення CPU до GPU на рівні приблизно 1:1,4. У порівнянні з ерою домінування GPU статус CPU суттєво зріс.
Переваги GPU та виклики інференс-навантaжень
Попри повернення CPU, GPU залишаються незамінними у сфері інференсу завдяки своїм перевагам у пропускній здатності пам’яті та паралельній обробці.
Під час інференсу великих мовних моделей для генерації кожного токена потрібно зчитування сотень мільйонів або навіть десятків мільярдів параметрів — це класичне завдання з високим навантаженням на пам’ять. CPU використовують системну DDR-пам’ять із пропускною здатністю зазвичай 50–100 ГБ/с. GPU працюють із пам’яттю GDDR6X або HBM, де пропускна здатність перевищує 800 ГБ/с; топові GPU з HBM2e досягають 1,5 ТБ/с, що у 20 разів більше, ніж у CPU. Для моделі Llama 3.1 8B рішення на CPU забезпечує лише 819 токенів/с на завдання, тоді як кластер із 8 GPU досягає 46 841 токен/с. За зростання кількості паралельних запитів продуктивність CPU різко падає з 819 токенів/с до 257 токенів/с, тоді як кластер із 8 GPU майже не втрачає продуктивності.
Щодо щільності обчислень, GPU мають тисячі ядер CUDA для паралелізації, підтримують низькорозрядні формати FP4/FP8 і забезпечують сотні терафлопс. CPU зазвичай надають FP32-обчислення у діапазоні 1–10 терафлопс.
Ці дані свідчать: для сценаріїв з високою пропускною здатністю та великою кількістю паралельних запитів — наприклад, для масштабних хмарних AI-сервісів — GPU залишаються оптимальним рішенням. Позиції Nvidia у цій сфері непохитні. За даними SemiAnalysis, у першому кварталі 2026 року Nvidia мала 92% ринку чипів для навчання ШІ та 78% ринку чипів для інференсу. За оцінкою IDC, Nvidia контролює близько 81% ринку чипів для ШІ. Ринок прискорювачів для ШІ, за прогнозами, досягне $160 млрд у 2025 році та понад $200 млрд у 2026 році, причому на інференс припадатиме дві третини витрат.
Однак частка GPU на ринку інференсу перебуває під тиском — через повернення CPU, конкуренцію зі спеціалізованими ASIC і практичні міркування щодо вартості.
Контратака виробників CPU на ринку інференсу
Переоцінка ролі CPU в інференсі вже трансформувалася у відчутний ринковий імпульс.
Ринок процесорів для дата-центрів стрімко зростає завдяки зростанню попиту на генеративні навантаження ШІ. Очікується, що обсяг ринку збільшиться з $215 млрд у 2025 році до $656 млрд у 2031 році. За даними Guohai Securities, гіпермасштабні дата-центри входять у «цикл оновлення», а постачання серверних CPU зросте на 25% у 2026 році.
AMD є одним із головних бенефіціарів цієї тенденції. Попит на AI-сервери стимулює постачання CPU EPYC, причому п’яте покоління Turin зайняло значну частку ринку серверних процесорів. Очікується, що бізнес AMD із серверними CPU зросте щонайменше на 50% у 2026 році. Аналітики Bernstein прогнозують, що продажі флагманських процесорів EPYC можуть зрости на 30% у 2026 році. Станом на початок 2026 року Intel володіє близько 60% ринку серверних CPU, AMD — близько 24%, а Nvidia — близько 6%. AMD також конкурує на ринку AI GPU зі своїми прискорювачами Instinct, що забезпечує їй унікальне подвійне позиціонування в епоху інференсу.
Intel також активно коригує свою стратегію. На виставці Computex у червні 2026 року новий генеральний директор Пет Гелсінгер оголосив про повернення CPU у центр уваги в епоху інференсу, використовуючи технологію 18A та роз’єднані архітектури rack-scale. Інфраструктура для ШІ переходить від «єдиного магазину» до «модульного складання за принципом Lego». Процесори Intel Xeon оснащені Advanced Matrix Extensions (AMX), які прискорюють інференс великих мовних моделей із малою та середньою кількістю параметрів навіть без GPU чи інших прискорювачів ШІ.
Найбільш символічна зміна походить від самої Nvidia. Компанія, яка задала тон епосі ШІ завдяки GPU, у 2026 році випустила лінійки CPU Grace і Vera, причому Vera орієнтована саме на інференс і агентні навантаження ШІ. Nvidia очікує, що дохід від бізнесу CPU у 2026 році сягне $20 млрд. У 2026 році Nvidia та Arm також представили окремі CPU-продукти, що знаменує офіційний вихід лідера GPU на ринок CPU.
ASIC і спеціалізовані чипи: поява третього шляху
Окрім дихотомії GPU–CPU, ASIC (інтегральні схеми спеціального призначення) стають найдинамічнішим чинником на ринку інференсу.
За прогнозом TD Cowen, частка комерційних прискорювачів знизиться з приблизно 91% у 2025 році до 75% у 2030 році, тоді як частка спеціалізованих ASIC зросте з 9% до 25%. Поставки серверів на ASIC, як очікується, зростуть на 44,6% у 2026 році, тоді як зростання поставок серверів на GPU складе 16,1% — лише третину від темпів зростання ASIC.
Гіпермасштабні хмарні провайдери прискорюють розробку власних чипів для інференсу. Google TPU, AWS Inferentia, Meta MTIA та LPU (Language Processing Unit) від Groq — це всі ASIC, оптимізовані для інференсу. Дохід Broadcom від ШІ у другому кварталі 2026 року досяг $10,8 млрд, що на 143% більше у річному вимірі; прогноз на весь рік — $56 млрд, зростання на 180%. Очікується, що Broadcom отримає близько 60% ринку спеціалізованих чипів для ШІ.
Ця тенденція сигналізує про перехід ринку чипів для інференсу від «домінування універсальних GPU» до диверсифікованої моделі «GPU + CPU + ASIC». GPU виконують інтенсивне навчання та масштабний інференс, CPU керують оркестрацією завдань і системним контролем, а ASIC забезпечують екстремальну енергоефективність для окремих сценаріїв інференсу.
Структура витрат і трансформація економіки інференсу
У підсумку вибір чипа для інференсу зводиться до ключового питання: вартість обробки мільйона токенів.
Під час навчання основними метриками є точність моделі та час навчання, а толерантність до витрат вища. Інференс — це безперервна, високоінтенсивна виробнича діяльність: кожен API-запит і кожна дія користувача мають прямі витрати. Це зміщує конкуренцію між чипами з «абсолютної продуктивності» до «ефективної пропускної здатності на одиницю витрат».
GPU-рішення потребують значних початкових інвестицій у обладнання. Наприклад, AMD MI300X коштує $10 000–$15 000, а Nvidia H100 — $25 000–$40 000. Проте GPU забезпечують нижчу вартість обчислень на одиницю: хмарні GPU-інстанси генерують токени на 40%–60% дешевше за секунду, ніж CPU-інстанси. CPU мають перевагу у сценаріях з одним завданням, низькою паралельністю та мінімальними затримками, оскільки не потребують додаткових апаратних інвестицій.
Однак зі зростанням масштабів інференсу граничні витрати для CPU швидко зростають. За збільшення кількості паралельних запитів CPU мають розподіляти завдання шляхом ротації часових слотів, а накладні витрати на перемикання контексту зростають експоненційно. Це означає, що для великих розгортань інференсу початкові високі інвестиції у GPU або ASIC часто забезпечують кращу довгострокову рентабельність завдяки вищій пропускній здатності та нижчій вартості на одиницю.
Висновки
Зростання частки інференсу з однієї третини до двох третин обчислювальних потужностей ШІ відображає фундаментальні зміни у конкуренції на ринку чипів.
Для Nvidia її майже монопольне становище на ринку навчання (близько 90% частки) навряд чи буде піддане сумніву у короткостроковій перспективі, проте боротьба за додаткову частку ринку інференсу лише посилюватиметься. Найагресивніший прогноз дає New Street Research: частка Nvidia на ринку інференсу може впасти до 20%–30% до 2028 року. Навіть більш консервативна оцінка Bloomberg Intelligence — що Nvidia збереже 70%–75% до 2030 року — визнає, що зростання поставок ASIC значно перевищує темпи GPU.
Для AMD та Intel відродження попиту на CPU в епоху інференсу є структурною можливістю. Подвійна стратегія AMD із CPU EPYC і GPU Instinct, а також постійна еволюція процесорів Xeon від Intel із технологією 18A спрямовані на використання цього вікна можливостей.
Для хмарних провайдерів і розробників AI-додатків більша кількість варіантів чипів означає ширші можливості для оптимізації витрат. Від універсальних GPU до спеціалізованих ASIC, від інференсу на CPU до прискорення на GPU — вибір апаратного забезпечення дедалі більше залежатиме від специфіки кожного навантаження: розміру моделі, вимог до затримки, рівня паралельності та бюджету.
Попит на обчислення для інференсу зростає швидше, ніж на навчання. Це зміщення фокусу з навчання на інференс трансформує весь ланцюг галузі — від проєктування чипів до архітектури дата-центрів. GPU не втратять своїх позицій, але вже не є єдиною відповіддю для ШІ.




