Mausu Bijiwa News, peneliti di OpenAI Noam Brown memberikan pendapatnya, menunjukkan bahwa dengan peningkatan kinerja model kecerdasan buatan, skor tes standar yang mengukur kualitas model secara bertahap menuju penguasaan kemampuan penarikan kesimpulan.


Skor tetap dan tunggal tidak lagi mencerminkan tingkat sebenarnya dari model yang kuat, dan standar penilaian di masa depan harus beralih ke kurva kinerja yang berkembang berdasarkan kemampuan penarikan kesimpulan atau jumlah token yang dihasilkan.
Sebagai contoh pengujian model baru GPT-5.5, dalam pengujian awal tradisional, tidak ada keunggulan yang jelas dari GPT-5.5 dibandingkan GPT-5.4, tetapi begitu lebih banyak kapasitas penarikan kesimpulan dialokasikan, kinerjanya mulai meningkat secara eksponensial.
Noam Brown memperingatkan bahwa penilaian keamanan biologis atau jaringan saat ini sering kali tidak menyertakan anggaran penarikan kesimpulan yang tetap, dan ketika lawan di tingkat nasional menginvestasikan lebih dari satu juta dolar dalam sebuah misi tertentu, model yang tampaknya aman bisa melewati garis merah bahaya.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan