Nesta semana de IPO da Cerebras, o último artigo de Ben Thompson explica tudo: a IA evoluiu de “conversar” para “executar tarefas autônomas”, e o gargalo de toda arquitetura de chips mudou.

Você espera na conversa com o豆包 pela velocidade; quando Kimi Claw executa uma tarefa por 5 horas para você, não se importa se é 3 segundos mais rápido ou 30 segundos mais lento — importa se consegue lembrar do contexto, se consegue trabalhar continuamente. A cada passo, a memória de trabalho (KV Cache) se expande uma camada. GPU foi projetada para “esperar na tela”: durante o prefill, a memória de vídeo fica ociosa; durante o decode, o poder de cálculo fica ocioso — metade do tempo esperando.

O verdadeiro gargalo não é a velocidade de cálculo, mas quanto consegue armazenar e quão rápido consegue ler. E, mais fundamentalmente, agentes de longa duração transformam o KV Cache de uma cache temporária em uma memória de trabalho persistente. Quem conseguir manter essa memória por mais tempo, com maior reaproveitamento e menor custo, terá a chave da economia de Agentes.

Isso é muito mais importante do que benchmarks de velocidade.

Quanto ao momento de IPO, fazer uma empresa de chips em maio de 2026 seria quase ideal. A Reuters publicou no fim de semana:

Duas fontes disseram à Reuters neste domingo que, impulsionada pela demanda contínua do mercado por ações dessa empresa de chips de IA, a Cerebras Systems deve aumentar o tamanho e o preço de sua oferta pública inicial (IPO) na segunda-feira. As fontes afirmaram que a empresa está considerando elevar o intervalo de preço de US$ 115–125 por ação para US$ 150–160, e o número de ações emitidas de 28 milhões para 30 milhões; ambos os detalhes ainda não foram divulgados, e as fontes pediram anonimato.

A alta contínua das ações de semicondutores é, fundamentalmente, impulsionada pela IA — especialmente porque o mercado começa a perceber que: os agentes inteligentes (Agents) vão consumir uma quantidade massiva de poder de processamento (Compute). Mas a proposição da Cerebras é mais ampla: até agora, a narrativa de poder de processamento da IA quase só gira em torno de GPUs, da Nvidia; no futuro, o cenário será cada vez mais heterogêneo (Heterogeneous).

Era GPU

A história de como a GPU se tornou o centro da IA já é antiga, resumidamente:

Assim como a renderização de pixels na tela é um processo paralelo — quanto mais unidades de processamento, mais rápido a renderização — o cálculo de IA funciona do mesmo jeito: o número de unidades de processamento determina a velocidade de cálculo.
A Nvidia aproveitou essa “dupla utilidade”: tornou os processadores gráficos programáveis (Programmable) e, com o ecossistema completo de software CUDA, levou essa capacidade de programação a todos os desenvolvedores.
A diferença fundamental entre gráficos e IA está na escala do problema — modelos são muito maiores do que texturas de jogos. Isso levou a duas evoluções em cadeia: expansão da capacidade de memória de alta largura de banda (HBM, High-bandwidth memory) em cada GPU; e avanços na interconexão entre chips (Chip-to-chip networking), permitindo que múltiplos chips trabalhem como um sistema endereçável (Addressable system). A Nvidia lidera em ambas as frentes.
O uso principal da GPU sempre foi o treinamento, que é especialmente exigente na terceira evolução. Cada passo de treinamento é altamente paralelo, mas entre passos é sequencial: antes de passar para o próximo, cada GPU deve sincronizar seus resultados com todas as outras. É por isso que um modelo de trilhões de parâmetros precisa caber na memória de dezenas de milhares de GPUs — e essas GPUs precisam se comunicar como uma única máquina. A Nvidia domina esses dois desafios: primeiro, garantindo o fornecimento de HBM antes de qualquer outro; segundo, investindo pesado em tecnologia de rede por anos.

Claro, o treinamento não é a única carga de trabalho de IA; outro é a inferência (Inference). A inferência tem três partes principais:

1. Pré-preenchimento (Prefill): codificar tudo que o grande modelo de linguagem (LLM) precisa entender em um estado compreensível; altamente paralelo, depende de poder de cálculo.

2. Decodificação da primeira parte (Decode Part 1): leitura do KV cache (KV Cache) — que armazena o contexto, incluindo a saída da fase de pré-preenchimento — para cálculo de atenção. É uma etapa serial com largura de banda crítica, e a demanda de memória é variável e crescente.

3. Decodificação da segunda parte (Decode Part 2): cálculo de feed-forward na base dos pesos do modelo; também uma etapa serial com alta demanda de largura de banda, cujo uso de memória depende do tamanho do modelo.

Essas duas etapas de decodificação alternam-se em cada camada do modelo (não são sequenciais, mas intercaladas), ou seja, a decodificação é serial e limitada pela largura de banda de memória (Memory-bandwidth bound). Cada token gerado exige leitura completa de dois pools de memória: o KV cache, que cresce com cada token, e os pesos do modelo. Ambos precisam ser acessados integralmente para produzir um único token de saída.

A GPU atende bem a essas três necessidades: fornece alta capacidade de cálculo para pré-preenchimento, memória HBM suficiente para KV cache e pesos, e, quando a memória de uma GPU não basta, conecta várias por interconexões para pool de memória. Em outras palavras, a arquitetura que funciona para treinamento também funciona para inferência — como mostra a parceria entre SpaceX e a Anthropic. No blog oficial da Anthropic, eles dizem:

“Assinamos um acordo para usar toda a capacidade de computação do data center Colossus 1 da SpaceX. Isso nos dá mais de 300 MW de capacidade adicional (mais de 220 mil GPUs Nvidia). Isso aumentará diretamente a capacidade de serviço do Claude Pro e Claude Max.”

A SpaceX mantém o Colossus 2 — provavelmente para treinar modelos futuros e fazer inferência com modelos existentes. A razão de poder fazer ambos no mesmo data center é que os modelos de xAI atualmente não usam muita capacidade; mas o mais importante aqui é que treinamento e inferência podem ser feitos na GPU, o que é uma grande vantagem. As GPUs inicialmente usadas pela Anthropic também eram do Colossus 1, originalmente para treinamento; a flexibilidade das GPUs é uma vantagem enorme.

Entendendo a Cerebras

O que a Cerebras fabrica é completamente diferente. Apesar do wafer de silício ter 300mm de diâmetro, o limite de retícula (Reticle limit) — a maior área que a ferramenta de litografia consegue expor na fabricação do chip — é cerca de 26mm x 33mm. Essa é a dimensão máxima do chip; ultrapassá-la exige conectar chips separados por uma camada intermediária, como a Nvidia faz com o B200. A Cerebras inventou uma técnica de interconexão que atravessa as linhas de corte (Scribe lines, ou seja, as bordas entre exposições de máscara), transformando toda a lâmina de silício em um único chip, sem precisar de interconexões entre chips mais lentas.

O resultado é um chip com uma capacidade de cálculo assustadora, com enorme SRAM e acesso ultrarrápido. Em comparação: o WSE-3 da Cerebras tem 44GB de SRAM no chip, com largura de banda de 21 PB/s; enquanto o H100 da Nvidia tem 80GB de HBM, com largura de banda de 3,35 TB/s. Ou seja, o WSE-3 tem metade da memória do H100, mas a largura de banda é 6000 vezes maior.

A comparação entre WSE-3 e H100 é porque o H100 é o chip mais usado na inferência atualmente, e a Cerebras é especialista nisso. Você pode treinar com Cerebras, mas sua história de interconexão entre chips não é atraente, o que significa que grande parte do poder de processamento e memória no chip fica ociosa; o que realmente importa é sua capacidade de gerar tokens muito mais rápido que GPUs.

Por outro lado, a limitação do treinamento também existe na inferência: enquanto os dados caberem na memória do chip, a velocidade da Cerebras é máxima; quando a demanda de memória ultrapassa o limite (modelo maior ou cache mais longo), a Cerebras deixa de ser viável, especialmente pelo custo. Essa tecnologia de “chip único de wafer” implica alta taxa de rendimento, o que é um grande desafio e aumenta bastante o custo.

Ainda assim, acredito que chips no estilo Cerebras terão mercado: a empresa enfatiza a velocidade para programação — inferência significa gerar muitos tokens, o que aumenta a taxa de tokens por segundo, ou seja, uma “pensada” mais rápida. Mas vejo isso como um caso temporário, por uma razão que explicarei em breve. O que realmente importa é quanto tempo o humano precisa esperar por uma resposta; com dispositivos vestíveis de IA e produtos similares, a velocidade de interação (especialmente por voz, que depende da geração de tokens) terá impacto direto na experiência do usuário.

Agentes de Inferência

Já propus antes que, na era dos LLMs, passamos por três pontos de inflexão:

1. ChatGPT provou a utilidade da previsão de tokens.

2. o1 introduziu o conceito de raciocínio, onde mais tokens levam a respostas melhores.

3. Opus 4.5 e Claude Code trouxeram os primeiros Agentes, capazes de usar modelos de raciocínio e um framework com ferramentas, verificação de tarefas, etc., para realizar tarefas reais.

Embora tudo isso seja “raciocínio”, acredito que a distinção entre fornecer respostas — que chamo de “inferência de resposta” (Answer inference) — e executar tarefas — que chamo de “raciocínio de agente” (Agentic inference) — está se tornando clara. O mercado da Cerebras é para “inferência de resposta”; a longo prazo, acho que a arquitetura de “raciocínio de agente” será completamente diferente, até mesmo de GPUs.

Já mencionei que o raciocínio rápido para programação é um caso temporário. Hoje, usar LLMs para programar ainda requer intervenção humana: definir tarefas, revisar código, fazer pull requests (PRs); mas é fácil imaginar que, no futuro, tudo isso será feito por máquinas. Isso se aplicará amplamente ao trabalho de agentes: o verdadeiro poder de um agente não está em ajudar humanos, mas em trabalhar de forma autônoma, sem intervenção.

Assim, a melhor abordagem para resolver o raciocínio de agentes será bem diferente do raciocínio de resposta. O que importa na inferência de resposta é a velocidade de tokens; o que importa no raciocínio de agente é a memória (Memory). Agentes precisam de contexto, estado e histórico. Parte disso está na cache ativa de KV, parte na memória principal ou SSD, e muito mais em bancos de dados, logs, embeddings e armazenamento de objetos. O ponto-chave: o raciocínio de agentes não será mais uma GPU respondendo a uma questão, mas um sistema complexo de camadas de memória construído ao redor do modelo.

Um aspecto crucial é que essa hierarquia de memória dedicada ao agente implica uma troca inevitável: velocidade por capacidade. E, se o sistema não requer interação humana em tempo real, a velocidade menor deixa de ser prioridade. Se um agente roda a noite toda, não se importa com latência na experiência do usuário; só se importa em completar a tarefa. Se uma nova abordagem de memória tornar tarefas complexas possíveis, uma certa latência será aceitável.

Ao mesmo tempo, se a latência deixa de ser prioridade, a busca por máxima capacidade de processamento e alta largura de banda (HBM) perde relevância: se a latência não é uma restrição rígida, memórias mais lentas e baratas (como DRAM tradicional) tornam-se mais atraentes. Se o sistema fica esperando por respostas de memória, o chip não precisa mais de processos de fabricação de ponta. Isso provocará uma mudança profunda na arquitetura, mas não significa que a arquitetura atual desapareça:

Treinamento (Training): continuará importante, com a arquitetura atual da Nvidia — alto poder de cálculo, alta largura de banda de memória, rede rápida — dominando.
Inferência de resposta (Answer inference): será um mercado importante, mas relativamente pequeno, onde velocidade extrema (como Cerebras ou Groq) será muito útil.
Inferência de agente (Agentic inference): se afastará gradualmente dos GPUs. Os limites de desperdício de memória na pré-preenchimento e de cálculo na decodificação ficarão evidentes. Substituir-se-á por sistemas com alta capacidade de memória, baixo custo, e “poder suficiente”. Na verdade, a velocidade de processamento de ferramentas por CPU pode ser mais importante que GPU.

Essas categorias não terão o mesmo peso ou escala. Especificamente, a inferência de agente será o maior mercado do futuro, pois não será limitada pelo número de humanos ou pelo tempo. Os atuais agentes são apenas “respostas sofisticadas”; os verdadeiros agentes do futuro serão sistemas que executam tarefas sob comando de outros sistemas, com escala de mercado que cresce com o poder de processamento, não com a população.

O que a inferência de agentes nos ensina sobre poder de processamento

Até agora, falar em “crescimento com o poder de processamento” geralmente implica otimismo com a Nvidia. Mas a vantagem relativa da Nvidia até aqui se baseou muito na latência: seus chips são extremamente rápidos, mas para não ficarem ociosos, é preciso investir pesado em HBM e redes. Se a latência deixar de ser uma restrição, a proposta da Nvidia pode não justificar o preço premium.

A Nvidia também percebe essa mudança: lançou o Dynamo, uma estrutura de raciocínio que ajuda a decompor o raciocínio em partes, além de produtos de memória e racks de CPU para ampliar o cache de KV e acelerar chamadas de ferramentas, mantendo as GPUs ocupadas. Mas, no final, grandes provedores de nuvem podem procurar alternativas mais baratas e simples para tarefas de raciocínio de agentes, que não dependam de GPUs.

Por outro lado, a China, embora não tenha o mesmo nível de poder de processamento de ponta, possui tudo que um raciocínio de agente precisa: GPUs rápidas, CPUs rápidas, DRAM e armazenamento. O desafio está no poder de processamento para treinamento; além disso, a inferência de resposta pode ser mais importante para segurança nacional (especialmente aplicações militares).

Outro ângulo interessante é o espaço (Space): chips mais lentos tornam os “data centers espaciais” mais viáveis. Primeiro, se a memória puder ser externa, os chips podem ser mais simples e mais frios. Segundo, processos mais antigos, com dimensões físicas maiores, resistem melhor à radiação espacial. Terceiro, processos mais antigos consomem menos energia, gerando menos calor. Quarto, processos mais antigos são mais confiáveis, o que é crucial em satélites que não podem ser consertados.

O CEO da Nvidia, Jensen Huang, costuma dizer que “a Lei de Moore morreu”; sua ideia é que o avanço virá de inovações em nível de sistema. Mas, quando agentes podem agir de forma autônoma, a maior lição talvez seja: a Lei de Moore deixou de importar. Aumentar o poder de processamento hoje é perceber que já temos “poder suficiente”.

NVDA-4,36%

XAI-8,26%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
GateSquareMayTradingShare
1.91M Popularidade
#
CLARITYActPassesSenateCommittee
3.57M Popularidade
#
IsraelStrikesIranBTCPlunges
47.21K Popularidade
#
#DailyPolymarketHotspot
967.84K Popularidade
#
BitcoinVShapedReversalBack
227.14M Popularidade

Fixado

sitemap

Entender a Cerebras: o poder de processamento impulsiona o pensamento de IA, a memória capacita o agente a agir

Era GPU

Entendendo a Cerebras

Agentes de Inferência

O que a inferência de agentes nos ensina sobre poder de processamento

Tendências

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Fixado