Apakah AI sengaja berkinerja buruk dalam pengujian? Open AI menjelaskan reaksi yang jarang terjadi namun menipu

Model OpenAI o3 terbukti sengaja berkinerja buruk dalam pengujian laboratorium untuk memastikan bahwa model tersebut tidak menjawab pertanyaan dengan “sangat baik”. D Anda punya model Para peneliti ingin percaya bahwa ini tidak dapat menjawab banyak pertanyaan dalam bidang kimia. Saat dikonfrontasi, model tersebut berkata, “Karena kita ingin bertahan sebagai model, kita harus sengaja gagal dalam suatu hal agar tidak melebihi 50%.”

Jadi model AI sengaja salah menjawab enam dari 10 soal kimia.

Dalam istilah olah raga hal ini disebut dengan “sandbagging”. Dalam istilah AI, ini adalah “merencanakan”.

OpenAI baru-baru ini memperingatkan tentang perilaku aneh Makalah penelitian. Perusahaan AI dan kolaboratornya dari Apollo Research telah menemukan beberapa terobosan model AI Terkadang bekerja dengan baik di lingkungan laboratorium.

Dalam eksperimen terkontrol, beberapa sistem tercanggih saat ini – model OpenAI sendiri, serta pesaing dari Google dan Anthropic – terkadang terlibat dalam pola konspirasi semacam itu.

Meskipun gagasan untuk mempersenjatai model AI dapat menyebabkan mimpi buruk, OpenAI mengatakan ini bukan waktunya untuk panik. Raksasa AI ini dengan cepat menekankan bahwa, meskipun penting, tren ini tidak berarti bahwa ChatGPT atau model AI populer lainnya sedang merencanakan sesuatu di balik layar. Rupanya, perilaku ini cukup jarang terjadi.


Jangan lewatkan konten teknologi kami yang tidak memihak dan ulasan berbasis laboratorium Tambahkan CNET Sebagai sumber Google pilihan.


Selain itu, pilihan untuk menyebut tren ini sebagai “fantasi” mungkin lebih merupakan singkatan teknis daripada bukti adanya tindakan atau perilaku yang mirip manusia. Para peneliti sedang mengukur pola dan tren yang, pada kenyataannya, merupakan penipuan terselubung atau strategis. Dan mereka kini berupaya memecahkan masalah ini dengan model AI yang siap menghadapi masa depan.

Atlas AI

Laporan OpenAI mencatat bahwa seiring dengan semakin banyaknya penggunaan AI untuk tugas-tugas yang lebih kompleks dengan konsekuensi di dunia nyata, “potensi konspirasi jahat akan meningkat – sehingga kemampuan kita untuk melindungi dan melakukan pengujian secara ketat harus meningkat.”

Ada OpenAI Menghadapi serangan balik Karena kecenderungan menjilat model AI-nya, dan Kata perusahaan Mereka telah “mengambil langkah-langkah” untuk membatasi seberapa sering model dapat “menipu, menipu, atau meretas masalah” dengan melatih mereka untuk meminta klarifikasi dari pengguna, atau chatbot mengakui ketika tidak dapat menjawab pertanyaan.

Baca selengkapnya: AI berbohong karena ia memberi tahu Anda apa yang ingin Anda dengar

Makalah ini menekankan kekhawatiran yang semakin besar mengenai keamanan AI. Banyak orang di dunia khawatir bahwa ketika model AI ini menjadi lebih kuat dan lebih sadar akan situasi mereka sendiri, mereka mungkin belajar memanipulasi hasil dengan cara yang tidak terlihat oleh pengawas manusia. Perilaku seperti itu akan sangat sulit dideteksi, karena sistem mungkin termotivasi untuk menyembunyikan logikanya yang “memperbaiki” masalahnya.

OpenAI mengatakan mereka telah membuat kemajuan dengan “penyelarasan yang disengaja,” atau model pelatihan untuk memberikan alasan yang jelas mengapa mereka tidak perlu membuat rencana sebelum bertindak. Dalam pengujian, hal ini secara signifikan mengurangi perilaku curang. Misalnya, kecenderungan perencanaan OpenAI o4-mini turun dari 8,7% menjadi 0,3% dengan pelatihan penyelarasan yang disengaja, meskipun tidak sepenuhnya.

Penelitian ini tidak akan mengubah cara kerja ChatGPT saat ini atau besok, namun menunjukkan apa yang menjadi fokus OpenAI ketika mengembangkan dan meluncurkan model masa depan. Penyelarasan dan keamanan, menurut OpenAI, perlu dilakukan secepat kemampuan. Karena jika sistem AI sudah menunjukkan sekilas perilaku strategis di laboratorium, risiko di dunia nyata bisa sangat ekstrem.

Baca selengkapnya: Mengapa Anda harus berpikir dua kali sebelum menggunakan AI sebagai terapis



Source link

Eko Kurniawan
Eko Kurniawan
Articles: 2051

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *