Kajian
OpenAI keluarkan algoritma pembelajaran pengukuhan Proximal Policy Optimization (PPO)
Dengar Ringkasan
Audio AI dalam sebutan Bahasa Melayu Malaysia, berdasarkan ringkasan NadiAI dan sumber asal.
Digest Audio Harian
Dapatkan ringkasan audio berita AI harian pada peranti anda.
Pasang NadiAI untuk akses pantas kepada 5 berita AI terkini setiap hari.
- Klik Aktifkan Alert dan benarkan notifikasi daripada NadiAI.
- Jika pilihan Pasang App muncul di address bar, anda boleh pasang NadiAI untuk akses lebih pantas.
- Jika tidak, bookmark halaman ini atau pin tab NadiAI.
Ringkasan
OpenAI mengumumkan kelas baharu algoritma pembelajaran pengukuhan, Proximal Policy Optimization (PPO). Mereka berkata PPO memberi prestasi setanding atau lebih baik daripada kaedah terkemuka, sambil lebih mudah dilaksanakan dan ditala, dan kini menjadi algoritma lalai di OpenAI.
Kenapa Ini Penting
PPO boleh mempercepat penyelidikan dan penggunaan RL kerana lebih mudah diimplementasi dan ditala tanpa mengorbankan prestasi.