Pakar teknologi mencari uji AI terberat yang pernah ada

Sekelompok pakar teknologi telah meluncurkan seruan global untuk ‘ Ujian Terakhir Kemanusiaan ‘ yang bertujuan untuk mendorong sistem AI hingga batas maksimal

mengajukan pertanyaan yang paling sulit. Center for AI Safety (CAIS) dan Scale AI memimpin inisiatif untuk menetapkan kapan AI mencapai kemampuan tingkat ahli. Uji tolok ukur saat ini telah menjadi terlalu mudah bagi banyak model AI , jadi upaya ini bertujuan untuk membuat ujian baru yang menekankan penalaran abstrak, area di mana AI masih menghadapi tantangan. Penyelenggara berharap ujian baru ini akan tetap relevan seiring dengan perkembangan teknologi AI.

Permintaan untuk pengujian yang lebih ketat muncul setelah OpenAI merilis model terbarunya, OpenAI o1 , yang telah menunjukkan kinerja yang kuat dalam tolok ukur penalaran tradisional. Dan Hendricks, direktur eksekutif CAIS, menyatakan bahwa sistem AI seperti model Claude dari Anthropic telah meningkatkan pengujian standar secara signifikan, sehingga tolok ukur ini menjadi kurang berharga. Namun, AI telah berjuang dengan tugas-tugas yang lebih rumit seperti perencanaan dan pengenalan pola visual, yang menyoroti perlunya penilaian yang lebih canggih.

Ujian ini akan mencakup lebih dari 1.000 pertanyaan yang dikumpulkan dari banyak orang yang menantang bahkan bagi mereka yang bukan ahli. Tujuannya adalah untuk mencegah AI menghafal jawaban dengan merahasiakan beberapa pertanyaan. Peserta memiliki waktu hingga 1 November untuk mengirimkan pertanyaan, dan akan ada hadiah untuk kontribusi terbaik. Meskipun ujian ini dirancang untuk menguji AI secara menyeluruh, pertanyaan tentang senjata akan dikecualikan untuk menghindari potensi risiko.