Kajian

OpenAI lancar SWE-bench Verified untuk penilaian model perisian

Sumber: OpenAI News 13 Aug 2024

Dengar Ringkasan

Audio AI dalam sebutan Bahasa Melayu Malaysia, berdasarkan ringkasan NadiAI dan sumber asal.

Ringkasan

OpenAI memperkenalkan SWE-bench Verified, satu subset SWE-bench yang disahkan oleh manusia. Menurut OpenAI, ia direka untuk menilai dengan lebih dipercayai kebolehan model AI menyelesaikan masalah perisian dunia sebenar.

Kenapa Ini Penting

Versi disahkan ini memberi alat ujian lebih tepat kepada penyelidik dan pembangun untuk menilai prestasi model pada tugasan perisian praktikal.