Kajian
Belajar Montezuma’s Revenge daripada satu demonstrasi manusia
Dengar Ringkasan
Audio AI dalam sebutan Bahasa Melayu Malaysia, berdasarkan ringkasan NadiAI dan sumber asal.
Digest Audio Harian
Dapatkan ringkasan audio berita AI harian pada peranti anda.
Pasang NadiAI untuk akses pantas kepada 5 berita AI terkini setiap hari.
- Klik Aktifkan Alert dan benarkan notifikasi daripada NadiAI.
- Jika pilihan Pasang App muncul di address bar, anda boleh pasang NadiAI untuk akses lebih pantas.
- Jika tidak, bookmark halaman ini atau pin tab NadiAI.
Ringkasan
OpenAI melatih agen mencapai skor tinggi 74,500 pada Montezuma’s Revenge menggunakan satu demonstrasi manusia, melebihi hasil diterbitkan sebelum ini. Agen itu bermain urutan permainan bermula dari keadaan dipilih daripada demonstrasi dan belajar dengan mengoptimumkan skor permainan menggunakan PPO.
Kenapa Ini Penting
Keputusan ini menunjukkan keberkesanan pembelajaran dari contoh tunggal dan potensi meningkatkan kecekapan dalam pembelajaran penguatan.