Apakah Era Inferensi AI Benar-Benar Telah Tiba? Pergeseran Kekuatan di Antara GPU, CPU, dan ASIC

Pasar
Diperbarui: 22/06/2026 11:22

22 Juni 2026: Saham-saham chip AS melonjak secara menyeluruh—Philadelphia Semiconductor Index naik 6,42% dalam satu hari. Intel melesat lebih dari 10% setelah kabar kemitraan manufaktur chip dengan Apple. ADR TSMC menguat 6,94% dan ditutup di $462,12, sementara Nvidia naik hampir 3%. Reli pasar ini mencerminkan percepatan pergeseran industri: permintaan komputasi AI kini bergerak dari yang didorong oleh pelatihan (training) menuju inferensi (inference).

Analisis industri menunjukkan, inferensi kini menyumbang dua pertiga dari total permintaan komputasi AI, naik dari sekitar sepertiga pada 2023, dan diperkirakan akan mencapai 70%–85% pada 2028–2030. Perubahan struktural ini mendefinisikan ulang medan persaingan utama chip—dari "siapa yang punya GPU tercepat untuk pelatihan" menjadi "chip mana yang menawarkan biaya inferensi total terendah dan throughput tertinggi".

Pasar chip inferensi AI global bernilai $85,4 miliar pada 2024 dan diproyeksikan tumbuh dari $105,47 miliar pada 2025 menjadi $570,77 miliar pada 2033, dengan tingkat pertumbuhan tahunan gabungan (CAGR) sebesar 23,5% selama periode proyeksi. Pasar chip inferensi AI cloud saja diperkirakan mencapai $102,19 miliar pada 2025, naik menjadi $118,9 miliar pada 2026, dan bisa mencapai $320,98 miliar pada 2032. Sementara itu, pasar chipset AI edge global (termasuk inferensi dan pelatihan) diperkirakan akan tumbuh dari $34,4 miliar pada 2026 menjadi $96 miliar pada 2031.

Dalam siklus ekspansi ini, keseimbangan kekuatan antar jenis chip bergeser secara halus namun signifikan. GPU tetap menjadi pemain dominan di pasar, didukung oleh permintaan pelatihan maupun inferensi, dan diperkirakan mempertahankan CAGR 20% hingga 2031. Namun, AI ASIC dipandang banyak institusi sebagai segmen dengan pertumbuhan tercepat. Analis JPMorgan memperkirakan pasar AI ASIC digital akan mencapai $60–$70 miliar pada 2026, dengan CAGR lebih dari 40–50% dalam beberapa tahun mendatang.

Yang lebih menarik lagi adalah kebangkitan CPU. Selama tiga tahun terakhir, CPU hanya menjadi pelengkap dalam narasi AI, namun ledakan permintaan inferensi kini mengubah lanskap tersebut.

Mengapa CPU Kembali Menjadi Sorotan Utama

Inferensi dan pelatihan AI berbeda secara fundamental dalam logika komputasinya. Pelatihan melibatkan operasi matriks paralel masif—triliunan kalkulasi floating-point yang dieksekusi secara simultan di ribuan inti GPU, area di mana GPU unggul. Inferensi, terutama untuk AI agentik, melibatkan orkestrasi tugas, pemanggilan alat, penalaran logis multi-langkah, dan pengambilan keputusan berurutan. Beban kerja ini sangat bergantung pada kontrol logika kompleks dan pemrosesan serial—bidang di mana CPU unggul.

Sebuah studi bersama Georgia Tech dan Intel menemukan bahwa dalam skenario AI agentik, 50%–90% latensi berasal dari CPU, bukan akselerator komputasi—karena model besar harus memanggil plugin, melakukan pencarian web, dan menangani logika multi-langkah, semua dikelola oleh CPU. Nvidia sendiri mengakui kenyataan ini pada Maret 2026: eksekutif Dion Harris secara terbuka menyatakan, "CPU kini menjadi bottleneck dalam alur kerja AI"—sebuah pengakuan mencolok dari perusahaan yang dibangun dengan keyakinan bahwa "GPU adalah satu-satunya chip yang dibutuhkan AI".

Perubahan rasio konfigurasi memperjelas tren ini. Dalam pelatihan AI, rasio CPU terhadap GPU biasanya sangat ekstrem di angka 1:8, dengan GPU menanggung sebagian besar beban komputasi. Namun di era inferensi, TrendForce melaporkan rasio ini cepat menyempit menjadi antara 1:1 dan 1:2. CEO Intel Pat Gelsinger mencatat dalam panggilan pendapatan Q1 2026 bahwa beban kerja pelatihan biasanya membutuhkan 7–8 GPU per CPU, tetapi beban kerja inferensi telah menyempit menjadi 3–4 GPU per CPU, dengan prospek menuju keseimbangan 1:1.

Mengacu pada perkiraan CEO Nvidia Jensen Huang: setiap pusat data skala GW membutuhkan sekitar 300.000 GPU Rubin, dan, berdasarkan 136 inti per CPU ARM, sekitar 221.000 CPU per GW. Ini menetapkan rasio CPU terhadap GPU baru di kisaran 1:1,4. Dibandingkan era dominasi GPU, status CPU naik secara signifikan.

Moat GPU dan Tantangan Beban Kerja Inferensi

Meski CPU kembali naik daun, GPU tetap memegang posisi tak tergantikan dalam inferensi AI, berkat keunggulannya dalam bandwidth memori dan throughput paralel.

Saat inferensi LLM, generasi setiap token membutuhkan pembacaan ratusan juta hingga puluhan miliar parameter—sebuah tugas klasik yang sangat bergantung pada memori. CPU mengandalkan memori DDR sistem, biasanya menawarkan bandwidth 50–100 GB/s. GPU menggunakan memori GDDR6X atau HBM, dengan bandwidth di atas 800 GB/s; GPU kelas atas dengan HBM2e bisa mencapai 1,5 TB/s, 20 kali lipat dari CPU. Pada inferensi model Llama 3.1 8B, solusi CPU hanya menghasilkan 819 token/s per tugas, sedangkan klaster 8 GPU mencapai 46.841 token/s. Saat permintaan bersamaan meningkat, performa CPU turun tajam dari 819 token/s menjadi 257 token/s, sementara klaster 8 GPU hampir tidak mengalami penurunan.

Dari sisi densitas komputasi, GPU menawarkan ribuan inti CUDA untuk paralelisasi, mendukung format presisi rendah seperti FP4/FP8, dan menghasilkan ratusan TFLOPS. CPU umumnya menyediakan komputasi FP32 di kisaran 1–10 TFLOPS.

Angka-angka ini menunjukkan bahwa untuk skenario inferensi throughput tinggi dan konkuren tinggi—seperti layanan AI cloud berskala besar—GPU tetap menjadi solusi optimal. Dominasi Nvidia di bidang ini tak tertandingi. Menurut SemiAnalysis, Nvidia memegang 92% pangsa pasar chip pelatihan AI dan 78% pasar chip inferensi pada Q1 2026. IDC memperkirakan Nvidia menguasai sekitar 81% pasar chip AI. Pasar akselerator AI diperkirakan mencapai $160 miliar pada 2025 dan lebih dari $200 miliar pada 2026, dengan belanja inferensi menyumbang dua pertiga.

Namun, pangsa pasar GPU dalam inferensi menghadapi berbagai tekanan—dari kebangkitan CPU, persaingan ASIC khusus, dan pertimbangan biaya praktis.

Serangan Balik Inferensi dari Vendor CPU

Revaluasi CPU dalam inferensi telah diterjemahkan menjadi momentum pasar yang terukur.

Pasar prosesor pusat data mengalami pertumbuhan pesat, didorong lonjakan permintaan beban kerja AI generatif. Ukuran pasar diproyeksikan tumbuh dari $215 miliar pada 2025 menjadi $656 miliar pada 2031. Guohai Securities mencatat bahwa pusat data hyperscale memasuki "siklus upgrade", dengan pengiriman CPU server diperkirakan tumbuh 25% pada 2026.

AMD menjadi salah satu penerima manfaat utama tren ini. Permintaan server AI mendorong pengiriman CPU EPYC, dengan generasi kelima Turin meraih pangsa pasar CPU server yang signifikan. Bisnis CPU server AMD diperkirakan tumbuh setidaknya 50% pada 2026. Analis Bernstein memproyeksikan penjualan prosesor EPYC andalan bisa melonjak 30% pada 2026. Per awal 2026, Intel memegang sekitar 60% pasar CPU pusat data, AMD sekitar 24%, dan Nvidia sekitar 6%. AMD juga bersaing di pasar GPU AI dengan akselerator Instinct, memberinya posisi ganda unik di era inferensi.

Intel juga aktif menyesuaikan strateginya. Pada Computex Juni 2026, CEO baru Pat Gelsinger mengumumkan kembalinya CPU ke panggung utama di era inferensi, memanfaatkan teknologi proses 18A dan arsitektur decoupled skala rak. Infrastruktur AI bergerak dari "one-stop shopping" ke "perakitan gaya Lego". Prosesor Xeon Intel dilengkapi Advanced Matrix Extensions (AMX), yang mempercepat inferensi untuk model bahasa besar dengan parameter kecil hingga menengah, bahkan tanpa GPU atau akselerator AI lain.

Perubahan paling simbolis datang dari Nvidia sendiri. Perusahaan yang mendefinisikan era AI dengan GPU ini meluncurkan lini produk CPU Grace dan Vera pada 2026, dengan Vera CPU secara khusus dirancang untuk beban kerja inferensi dan AI agentik. Nvidia memperkirakan pendapatan bisnis CPU-nya mencapai $20 miliar pada 2026. Nvidia dan Arm juga merilis produk CPU mandiri pada 2026, menandai masuknya raksasa GPU ini secara resmi ke arena CPU.

ASIC dan Chip Khusus: Munculnya Jalur Ketiga

Di luar dikotomi GPU-CPU, ASIC (application-specific integrated circuits) kini muncul sebagai variabel dengan pertumbuhan tercepat di pasar inferensi.

TD Cowen memperkirakan pangsa pasar akselerator komersial akan turun dari sekitar 91% pada 2025 menjadi 75% pada 2030, sementara ASIC kustom naik dari 9% menjadi 25%. Pengiriman server ASIC diperkirakan tumbuh 44,6% pada 2026, dibandingkan pertumbuhan pengiriman server GPU sebesar 16,1%—hanya sepertiga dari ASIC.

Penyedia cloud hyperscale mempercepat pengembangan chip inferensi kustom mereka. Google TPU, AWS Inferentia, Meta MTIA, dan LPU (Language Processing Unit) milik Groq, semuanya adalah chip ASIC yang dioptimalkan untuk inferensi. Pendapatan AI Broadcom mencapai $10,8 miliar pada Q2 2026, naik 143% year-on-year, dengan panduan AI sepanjang tahun di $56 miliar, naik 180%. Broadcom diperkirakan meraih sekitar 60% pangsa pasar chip AI kustom.

Tren ini menandakan pergeseran pasar chip inferensi dari "dominasi GPU serbaguna" ke lanskap terdiversifikasi "GPU + CPU + ASIC". GPU menangani pelatihan intensif dan inferensi berskala besar, CPU mengelola orkestrasi tugas dan kontrol sistem, sementara ASIC menghadirkan efisiensi energi ekstrem untuk beban kerja inferensi tertentu.

Struktur Biaya dan Perubahan Ekonomi Inferensi

Pada akhirnya, pemilihan chip untuk inferensi bermuara pada satu pertanyaan utama: biaya per satu juta token.

Dalam pelatihan, akurasi model dan waktu pelatihan adalah metrik utama, dan toleransi biaya lebih tinggi. Inferensi, sebaliknya, adalah aktivitas produksi berkelanjutan dan berfrekuensi tinggi—setiap panggilan API dan permintaan pengguna langsung menimbulkan biaya. Hal ini menggeser persaingan chip dari "performa absolut" ke "throughput efektif per unit biaya".

Solusi GPU memerlukan investasi hardware awal yang lebih tinggi. Sebagai contoh, AMD MI300X dijual seharga $10.000–$15.000, sedangkan Nvidia H100 berkisar $25.000–$40.000. Namun, GPU menghasilkan biaya komputasi per unit yang lebih rendah—instance GPU on-demand dari penyedia cloud menghasilkan token dengan biaya per detik 40%–60% lebih rendah dibanding instance CPU. CPU unggul untuk skenario tugas tunggal, konkuren rendah, dan latensi rendah, karena tidak memerlukan investasi hardware tambahan.

Namun, seiring skala inferensi membesar, solusi CPU menghadapi kenaikan biaya marjinal yang cepat. Ketika permintaan bersamaan meningkat, CPU harus menjadwalkan tugas melalui rotasi time-slice, dengan overhead context-switching yang tumbuh eksponensial. Artinya, untuk penerapan inferensi berskala besar, investasi awal yang tinggi pada solusi GPU atau ASIC sering kali memberikan ROI jangka panjang yang lebih baik melalui throughput lebih tinggi dan biaya per unit lebih rendah.

Kesimpulan

Lonjakan permintaan inferensi dari sepertiga menjadi dua pertiga komputasi AI mencerminkan pergeseran fundamental dalam persaingan industri chip.

Bagi Nvidia, posisi hampir monopoli di pasar pelatihan (sekitar 90% pangsa) kemungkinan tidak akan tergoyahkan dalam waktu dekat, namun perebutan pangsa pasar inferensi tambahan akan semakin sengit. New Street Research memberikan proyeksi paling agresif: pangsa inferensi Nvidia bisa turun menjadi 20%–30% pada 2028. Bahkan prediksi Bloomberg Intelligence yang lebih konservatif—bahwa Nvidia akan mempertahankan 70%–75% pangsa pada 2030—mengakui fakta bahwa pertumbuhan pengiriman ASIC jauh melampaui GPU.

Bagi AMD dan Intel, kebangkitan permintaan CPU di era inferensi adalah peluang struktural. Strategi ganda AMD dengan CPU EPYC dan GPU Instinct, serta iterasi prosesor Xeon Intel dengan teknologi proses 18A, sama-sama bertujuan merebut peluang ini.

Bagi penyedia cloud dan pengembang aplikasi AI, semakin banyak pilihan chip berarti peluang optimalisasi biaya yang lebih besar. Dari GPU serbaguna hingga ASIC kustom, dan dari inferensi CPU hingga akselerasi GPU, pemilihan hardware akan semakin bergantung pada spesifikasi beban kerja—ukuran model, kebutuhan latensi, tingkat konkuren, dan anggaran.

Permintaan komputasi inferensi AI tumbuh lebih cepat dibanding pelatihan. Pergeseran dari pelatihan ke inferensi ini sedang membentuk ulang seluruh rantai industri, mulai dari desain chip hingga arsitektur pusat data. GPU tidak akan kehilangan tempatnya, namun kini bukan lagi satu-satunya jawaban.

The content herein does not constitute any offer, solicitation, or recommendation. You should always seek independent professional advice before making any investment decisions. Please note that Gate may restrict or prohibit the use of all or a portion of the Services from Restricted Locations. For more information, please read the User Agreement
Like Konten