Fórmula de pré-treinamento 19,7 minutos vs 35,9 minutos, dez rodadas de busca resolvem tudo, os fãs de eficiência ficam em êxtase

Ver original
MeNews
Equipe de PLN de Stanford apresenta novos avanços na pesquisa de IA automatizada
Stanford NLP na ICML 2026 apresenta a transformação do pré-treinamento e pós-treinamento de LLM em ambientes de execução através de atuadores automatizados, utilizando feedback de execução para melhorar a eficiência da pesquisa. Dois métodos: busca evolutiva supera o GRPO em tarefas de pós-treinamento (69,4% contra 48,0%), e as fórmulas encontradas na fase de pré-treinamento são mais rápidas do que o nanoGPT (19,7 minutos contra 35,9 minutos), ambos concluídos em dez rodadas de busca; o reforço baseado em recompensas de execução é suscetível a colapsos de padrão, embora aumente a recompensa média, não melhora o limite superior. Este trabalho aponta para uma direção na pesquisa automatizada orientada por execução em IA.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado