なぜあなたのエージェントは数分後に動作を停止するのか?OpenAIエンジニア:スコアボードと外部メモリが必要です

robot
概要作成中

ドンチャビーティングによる監視によると、Codexの /goal モードはエージェントがタスク完了まで継続的にループできるが、これにより曖昧な人間のプロンプトの欠点が増幅される。OpenAIのエンジニア、Chris Haydukは内部の実践経験から、'コードを最適化する’のような曖昧な指示は、エンドポイントが不明なためモデルが早期に諦めたり、盲目的な修正ループに陥ったりする可能性があると指摘した。エージェントが何日も、さらにはそれ以上に安定して動作できるように、彼は三つの規律を要約した:

  • 定性的な用語を排除し、チェックリストに置き換える:モデルは何が「良い」かを評価できないが、「テストに失敗せずに時間を20%短縮する」などは理解できる。論文のフォーマットのような定性的なタスクに直面した場合、彼は200のフォーマット要件を含むMarkdownのチェックリストを直接Codexに提供し、抽象的なタスクを定量的に破壊的に変換した—「すべてのチェックボックスを完了させることが完了の条件」。
  • 検証時間を数分に短縮:エージェントはテストを通じて行動を検証する必要がある。大規模な生産環境で何時間も動かさないようにし、代わりにサンプルデータセットと軽量なフレームワークを提供してフィードバックループをできるだけ短くする。
  • 「外部脳」として三つのファイルを作成:たとえ大きなコンテキストウィンドウがあっても、数日運用すると記憶を失う。彼は、ローカルに三つのMarkdownファイルを直接作成することを推奨する:PLAN.md(マクロ計画)、EXPERIMENTS.md(実験と結果の記録)、EXPERIMENT_NOTES.md(リアルタイムの思考草稿)、これによりモデルに試行錯誤の過程を書き込ませる。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め