AIMPACT propõe uma abordagem de três etapas para transformar modelos de inferência pós-treinamento em solucionadores de problemas de nível olímpico: ajuste fino de curso com perplexidade reversa, aprendizagem por reforço em duas fases e expansão de melhorias durante o teste. Com 30B-A3B como núcleo de treino do SU-01, com trajetórias superiores a 100 mil tokens, alcançou nível de medalha de ouro em competições como IMO/USAMO/IPhO, e demonstrou generalização em raciocínio científico intersetorial. Fonte: InFoQ

MeNews

2026-05-15 21:43:33

Geração de resumo em curso

AIMPACT mensagem, 16 de maio (UTC+8), um novo artigo propõe um método sistemático para transformar modelos de raciocínio pós-treinamento em solucionadores de nível olímpico, e treina o modelo SU-01 com base nesse método.
Esse método inclui três etapas: primeiro, ajuste supervisionado usando um curso de perplexidade reversa para incutir uma busca rigorosa por provas e comportamento de auto-verificação;
depois, expandir esses comportamentos através de aprendizagem por reforço em duas fases (de aprendizagem por reforço com recompensas verificáveis para aprendizagem por reforço de nível de prova);
por fim, melhorar o desempenho por escalonamento durante a testagem.
A equipe de pesquisa aplicou o método ao modelo backbone 30B-A3B, usando cerca de 340 mil trajetórias de 8K tokens para ajuste supervisionado, seguido de 200 passos de aprendizagem por reforço, resultando no SU-01.
Esse modelo consegue raciocinar de forma estável em problemas difíceis, com trajetórias que ultrapassam 100 mil tokens, atingindo nível de medalha de ouro em competições como IMO 2025/USAMO 2026 e IPhO 2024/2025, e demonstrando capacidade de generalização em domínios de raciocínio científico além de matemática e física.
(Fonte: InFoQ)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateSquareMayTradingShare
1.84M Popularidade
#
CLARITYActPassesSenateCommittee
3.39M Popularidade
#
IsraelStrikesIranBTCPlunges
46.85K Popularidade
#
#DailyPolymarketHotspot
955.02K Popularidade
#
BitcoinVShapedReversalBack
227.02M Popularidade

Fixado

O modelo de inferência pós-treinamento SU-01 alcança desempenho de medalha de ouro em questões de nível olímpico

Tópicos em destaque

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Fixado