¿Por qué deja de funcionar tu agente después de unos minutos? Ingeniero de OpenAI: Necesita una tabla de puntuaciones y memoria externa

robot
Generación de resúmenes en curso

Según la monitorización de Dongcha Beating, el modo /goal de Codex permite que el Agente repita en bucle continuamente hasta completar la tarea, pero esto amplifica las fallas en indicaciones humanas vagas. El ingeniero de OpenAI, Chris Hayduk, señaló desde la experiencia práctica interna que instrucciones vagas como ‘optimizar código’ pueden hacer que el modelo se rinda demasiado pronto por no saber cuál es el punto final, o caer en un ciclo de modificaciones ciegas. Para asegurar que el Agente pueda trabajar de manera estable durante días o incluso más tiempo, resumió tres disciplinas: - Eliminar términos cualitativos y reemplazarlos con listas de verificación: El modelo no puede evaluar qué es ‘mejor’, pero puede entender ‘reducir el tiempo en un 20% sin fallar pruebas’. Cuando se enfrenta a tareas cualitativas como formatear documentos, incluso proporcionó directamente a Codex una lista de verificación en Markdown con 200 requisitos de formato, transformando brutalmente tareas abstractas en cuantitativas—‘completar todas las casillas significa completar’. - Reducir el tiempo de validación a minutos: El Agente necesita validar acciones mediante pruebas. No dejar que funcione durante horas en un entorno de producción grande; en su lugar, proporcionarle un conjunto de datos de muestra y un marco de trabajo ligero para hacer que el ciclo de retroalimentación sea lo más corto posible. - Crear tres archivos como una ‘mente externa’: Incluso con una ventana de contexto grande, perderá memoria después de unos días de ejecución. Recomienda crear directamente tres archivos Markdown localmente: PLAN.md (plan macro), EXPERIMENTS.md (registro de experimentos y resultados), y EXPERIMENT_NOTES.md (borradores de pensamiento en tiempo real), forzando al modelo a escribir el proceso de prueba y error en el disco duro.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado