Futuros
Acesse centenas de contratos perpétuos
CFD
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
Pre-IPOs
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gestão privada de patrimônio
Alocação premium de ativos
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
Cunhagem de GUSD
Cunhe GUSD para retornos em RWA
Promoções
Centro de atividade
Participe de atividades e ganhe recompensas
Indicação
20 USDT
Convide amigos para recompensas de ind.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Anúncio
Atualizações na plataforma em tempo real
Blog da Gate
Artigos do setor de criptomoedas
Serviços VIP
Grandes Descontos nas Taxas
Gerenciamento de ativos
Solução completa de gerenciamento de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicativos da Gate
Transferência Bancária OTC
Deposite e retire moedas fiat
Programa de corretoras
Mecanismos de grandes descontos via API
AI
Gate AI
Seu parceiro de IA conversacional para todas as horas
Gate AI Bot
Use o Gate AI diretamente no seu aplicativo social
GateClaw
Gate Blue Lobster, pronto para usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
10K+ habilidades
Do escritório à negociação: um hub completo de habilidades para turbinar o uso da IA
GateRouter
Escolha inteligentemente entre mais de 40 modelos de IA, com 0% de taxas extras
Entender a Cerebras: o poder de processamento impulsiona o pensamento de IA, a memória capacita o agente a agir
Autor: Ben Thompson
O poder de processamento faz a IA aprender a pensar, a memória faz o Agente aprender a trabalhar.
Nesta semana de IPO da Cerebras, o último artigo de Ben Thompson explica tudo: a IA evoluiu de “conversar” para “executar tarefas autônomas”, e o gargalo de toda arquitetura de chips mudou.
Você espera na conversa com o豆包 pela velocidade; quando Kimi Claw executa uma tarefa por 5 horas para você, não se importa se é 3 segundos mais rápido ou 30 segundos mais lento — importa se consegue lembrar do contexto, se consegue trabalhar continuamente. A cada passo, a memória de trabalho (KV Cache) se expande uma camada. GPU foi projetada para “esperar na tela”: durante o prefill, a memória de vídeo fica ociosa; durante o decode, o poder de cálculo fica ocioso — metade do tempo esperando.
O verdadeiro gargalo não é a velocidade de cálculo, mas quanto consegue armazenar e quão rápido consegue ler. E, mais fundamentalmente, agentes de longa duração transformam o KV Cache de uma cache temporária em uma memória de trabalho persistente. Quem conseguir manter essa memória por mais tempo, com maior reaproveitamento e menor custo, terá a chave da economia de Agentes.
Isso é muito mais importante do que benchmarks de velocidade.
Quanto ao momento de IPO, fazer uma empresa de chips em maio de 2026 seria quase ideal. A Reuters publicou no fim de semana:
A alta contínua das ações de semicondutores é, fundamentalmente, impulsionada pela IA — especialmente porque o mercado começa a perceber que: os agentes inteligentes (Agents) vão consumir uma quantidade massiva de poder de processamento (Compute). Mas a proposição da Cerebras é mais ampla: até agora, a narrativa de poder de processamento da IA quase só gira em torno de GPUs, da Nvidia; no futuro, o cenário será cada vez mais heterogêneo (Heterogeneous).
Era GPU
A história de como a GPU se tornou o centro da IA já é antiga, resumidamente:
Assim como a renderização de pixels na tela é um processo paralelo — quanto mais unidades de processamento, mais rápido a renderização — o cálculo de IA funciona do mesmo jeito: o número de unidades de processamento determina a velocidade de cálculo.
A Nvidia aproveitou essa “dupla utilidade”: tornou os processadores gráficos programáveis (Programmable) e, com o ecossistema completo de software CUDA, levou essa capacidade de programação a todos os desenvolvedores.
A diferença fundamental entre gráficos e IA está na escala do problema — modelos são muito maiores do que texturas de jogos. Isso levou a duas evoluções em cadeia: expansão da capacidade de memória de alta largura de banda (HBM, High-bandwidth memory) em cada GPU; e avanços na interconexão entre chips (Chip-to-chip networking), permitindo que múltiplos chips trabalhem como um sistema endereçável (Addressable system). A Nvidia lidera em ambas as frentes.
O uso principal da GPU sempre foi o treinamento, que é especialmente exigente na terceira evolução. Cada passo de treinamento é altamente paralelo, mas entre passos é sequencial: antes de passar para o próximo, cada GPU deve sincronizar seus resultados com todas as outras. É por isso que um modelo de trilhões de parâmetros precisa caber na memória de dezenas de milhares de GPUs — e essas GPUs precisam se comunicar como uma única máquina. A Nvidia domina esses dois desafios: primeiro, garantindo o fornecimento de HBM antes de qualquer outro; segundo, investindo pesado em tecnologia de rede por anos.
Claro, o treinamento não é a única carga de trabalho de IA; outro é a inferência (Inference). A inferência tem três partes principais:
1. Pré-preenchimento (Prefill): codificar tudo que o grande modelo de linguagem (LLM) precisa entender em um estado compreensível; altamente paralelo, depende de poder de cálculo.
2. Decodificação da primeira parte (Decode Part 1): leitura do KV cache (KV Cache) — que armazena o contexto, incluindo a saída da fase de pré-preenchimento — para cálculo de atenção. É uma etapa serial com largura de banda crítica, e a demanda de memória é variável e crescente.
3. Decodificação da segunda parte (Decode Part 2): cálculo de feed-forward na base dos pesos do modelo; também uma etapa serial com alta demanda de largura de banda, cujo uso de memória depende do tamanho do modelo.
Essas duas etapas de decodificação alternam-se em cada camada do modelo (não são sequenciais, mas intercaladas), ou seja, a decodificação é serial e limitada pela largura de banda de memória (Memory-bandwidth bound). Cada token gerado exige leitura completa de dois pools de memória: o KV cache, que cresce com cada token, e os pesos do modelo. Ambos precisam ser acessados integralmente para produzir um único token de saída.
A GPU atende bem a essas três necessidades: fornece alta capacidade de cálculo para pré-preenchimento, memória HBM suficiente para KV cache e pesos, e, quando a memória de uma GPU não basta, conecta várias por interconexões para pool de memória. Em outras palavras, a arquitetura que funciona para treinamento também funciona para inferência — como mostra a parceria entre SpaceX e a Anthropic. No blog oficial da Anthropic, eles dizem:
A SpaceX mantém o Colossus 2 — provavelmente para treinar modelos futuros e fazer inferência com modelos existentes. A razão de poder fazer ambos no mesmo data center é que os modelos de xAI atualmente não usam muita capacidade; mas o mais importante aqui é que treinamento e inferência podem ser feitos na GPU, o que é uma grande vantagem. As GPUs inicialmente usadas pela Anthropic também eram do Colossus 1, originalmente para treinamento; a flexibilidade das GPUs é uma vantagem enorme.
Entendendo a Cerebras
O que a Cerebras fabrica é completamente diferente. Apesar do wafer de silício ter 300mm de diâmetro, o limite de retícula (Reticle limit) — a maior área que a ferramenta de litografia consegue expor na fabricação do chip — é cerca de 26mm x 33mm. Essa é a dimensão máxima do chip; ultrapassá-la exige conectar chips separados por uma camada intermediária, como a Nvidia faz com o B200. A Cerebras inventou uma técnica de interconexão que atravessa as linhas de corte (Scribe lines, ou seja, as bordas entre exposições de máscara), transformando toda a lâmina de silício em um único chip, sem precisar de interconexões entre chips mais lentas.
O resultado é um chip com uma capacidade de cálculo assustadora, com enorme SRAM e acesso ultrarrápido. Em comparação: o WSE-3 da Cerebras tem 44GB de SRAM no chip, com largura de banda de 21 PB/s; enquanto o H100 da Nvidia tem 80GB de HBM, com largura de banda de 3,35 TB/s. Ou seja, o WSE-3 tem metade da memória do H100, mas a largura de banda é 6000 vezes maior.
A comparação entre WSE-3 e H100 é porque o H100 é o chip mais usado na inferência atualmente, e a Cerebras é especialista nisso. Você pode treinar com Cerebras, mas sua história de interconexão entre chips não é atraente, o que significa que grande parte do poder de processamento e memória no chip fica ociosa; o que realmente importa é sua capacidade de gerar tokens muito mais rápido que GPUs.
Por outro lado, a limitação do treinamento também existe na inferência: enquanto os dados caberem na memória do chip, a velocidade da Cerebras é máxima; quando a demanda de memória ultrapassa o limite (modelo maior ou cache mais longo), a Cerebras deixa de ser viável, especialmente pelo custo. Essa tecnologia de “chip único de wafer” implica alta taxa de rendimento, o que é um grande desafio e aumenta bastante o custo.
Ainda assim, acredito que chips no estilo Cerebras terão mercado: a empresa enfatiza a velocidade para programação — inferência significa gerar muitos tokens, o que aumenta a taxa de tokens por segundo, ou seja, uma “pensada” mais rápida. Mas vejo isso como um caso temporário, por uma razão que explicarei em breve. O que realmente importa é quanto tempo o humano precisa esperar por uma resposta; com dispositivos vestíveis de IA e produtos similares, a velocidade de interação (especialmente por voz, que depende da geração de tokens) terá impacto direto na experiência do usuário.
Agentes de Inferência
Já propus antes que, na era dos LLMs, passamos por três pontos de inflexão:
1. ChatGPT provou a utilidade da previsão de tokens.
2. o1 introduziu o conceito de raciocínio, onde mais tokens levam a respostas melhores.
3. Opus 4.5 e Claude Code trouxeram os primeiros Agentes, capazes de usar modelos de raciocínio e um framework com ferramentas, verificação de tarefas, etc., para realizar tarefas reais.
Embora tudo isso seja “raciocínio”, acredito que a distinção entre fornecer respostas — que chamo de “inferência de resposta” (Answer inference) — e executar tarefas — que chamo de “raciocínio de agente” (Agentic inference) — está se tornando clara. O mercado da Cerebras é para “inferência de resposta”; a longo prazo, acho que a arquitetura de “raciocínio de agente” será completamente diferente, até mesmo de GPUs.
Já mencionei que o raciocínio rápido para programação é um caso temporário. Hoje, usar LLMs para programar ainda requer intervenção humana: definir tarefas, revisar código, fazer pull requests (PRs); mas é fácil imaginar que, no futuro, tudo isso será feito por máquinas. Isso se aplicará amplamente ao trabalho de agentes: o verdadeiro poder de um agente não está em ajudar humanos, mas em trabalhar de forma autônoma, sem intervenção.
Assim, a melhor abordagem para resolver o raciocínio de agentes será bem diferente do raciocínio de resposta. O que importa na inferência de resposta é a velocidade de tokens; o que importa no raciocínio de agente é a memória (Memory). Agentes precisam de contexto, estado e histórico. Parte disso está na cache ativa de KV, parte na memória principal ou SSD, e muito mais em bancos de dados, logs, embeddings e armazenamento de objetos. O ponto-chave: o raciocínio de agentes não será mais uma GPU respondendo a uma questão, mas um sistema complexo de camadas de memória construído ao redor do modelo.
Um aspecto crucial é que essa hierarquia de memória dedicada ao agente implica uma troca inevitável: velocidade por capacidade. E, se o sistema não requer interação humana em tempo real, a velocidade menor deixa de ser prioridade. Se um agente roda a noite toda, não se importa com latência na experiência do usuário; só se importa em completar a tarefa. Se uma nova abordagem de memória tornar tarefas complexas possíveis, uma certa latência será aceitável.
Ao mesmo tempo, se a latência deixa de ser prioridade, a busca por máxima capacidade de processamento e alta largura de banda (HBM) perde relevância: se a latência não é uma restrição rígida, memórias mais lentas e baratas (como DRAM tradicional) tornam-se mais atraentes. Se o sistema fica esperando por respostas de memória, o chip não precisa mais de processos de fabricação de ponta. Isso provocará uma mudança profunda na arquitetura, mas não significa que a arquitetura atual desapareça:
Essas categorias não terão o mesmo peso ou escala. Especificamente, a inferência de agente será o maior mercado do futuro, pois não será limitada pelo número de humanos ou pelo tempo. Os atuais agentes são apenas “respostas sofisticadas”; os verdadeiros agentes do futuro serão sistemas que executam tarefas sob comando de outros sistemas, com escala de mercado que cresce com o poder de processamento, não com a população.
O que a inferência de agentes nos ensina sobre poder de processamento
Até agora, falar em “crescimento com o poder de processamento” geralmente implica otimismo com a Nvidia. Mas a vantagem relativa da Nvidia até aqui se baseou muito na latência: seus chips são extremamente rápidos, mas para não ficarem ociosos, é preciso investir pesado em HBM e redes. Se a latência deixar de ser uma restrição, a proposta da Nvidia pode não justificar o preço premium.
A Nvidia também percebe essa mudança: lançou o Dynamo, uma estrutura de raciocínio que ajuda a decompor o raciocínio em partes, além de produtos de memória e racks de CPU para ampliar o cache de KV e acelerar chamadas de ferramentas, mantendo as GPUs ocupadas. Mas, no final, grandes provedores de nuvem podem procurar alternativas mais baratas e simples para tarefas de raciocínio de agentes, que não dependam de GPUs.
Por outro lado, a China, embora não tenha o mesmo nível de poder de processamento de ponta, possui tudo que um raciocínio de agente precisa: GPUs rápidas, CPUs rápidas, DRAM e armazenamento. O desafio está no poder de processamento para treinamento; além disso, a inferência de resposta pode ser mais importante para segurança nacional (especialmente aplicações militares).
Outro ângulo interessante é o espaço (Space): chips mais lentos tornam os “data centers espaciais” mais viáveis. Primeiro, se a memória puder ser externa, os chips podem ser mais simples e mais frios. Segundo, processos mais antigos, com dimensões físicas maiores, resistem melhor à radiação espacial. Terceiro, processos mais antigos consomem menos energia, gerando menos calor. Quarto, processos mais antigos são mais confiáveis, o que é crucial em satélites que não podem ser consertados.
O CEO da Nvidia, Jensen Huang, costuma dizer que “a Lei de Moore morreu”; sua ideia é que o avanço virá de inovações em nível de sistema. Mas, quando agentes podem agir de forma autônoma, a maior lição talvez seja: a Lei de Moore deixou de importar. Aumentar o poder de processamento hoje é perceber que já temos “poder suficiente”.