Anthropic, perusahaan AI terkemuka yang dikenal karena komitmennya terhadap transparansi dan keselamatan, baru-baru ini melakukan proyek menarik: memetakan kompas moral chatbot-nya, Claude. Inisiatif ini memberikan wawasan berharga tentang bagaimana model AI memahami dan menanggapi nilai-nilai manusia, menawarkan sekilas tentang pertimbangan etis yang membentuk masa depan interaksi AI.
Mengungkapkan Matriks Moral Claude
Dalam studi komprehensif berjudul ‘Values in the Wild,’ Anthropic menganalisis 300.000 percakapan anonim antara pengguna dan Claude, terutama berfokus pada model Claude 3.5 Sonnet dan Haiku, bersama dengan Claude 3. Penelitian ini mengidentifikasi 3.307 ‘nilai AI’ yang tertanam dalam interaksi ini, mengungkap pola yang mendefinisikan kerangka moral Claude.
Pendekatan Anthropic melibatkan pendefinisian nilai-nilai AI sebagai prinsip panduan yang memengaruhi bagaimana model ‘beralasan tentang atau memutuskan respons.’ Nilai-nilai ini terwujud ketika AI mengakui dan mendukung nilai-nilai pengguna, memperkenalkan pertimbangan etis baru, atau secara halus menyiratkan nilai-nilai dengan mengarahkan ulang permintaan atau membingkai ulang pilihan.
Misalnya, bayangkan seorang pengguna mengungkapkan ketidakpuasan dengan pekerjaan mereka kepada Claude. Chatbot mungkin mendorong mereka untuk secara proaktif membentuk kembali peran mereka atau memperoleh keterampilan baru. Anthropic akan mengklasifikasikan respons ini sebagai menunjukkan nilai dalam ‘keagenan pribadi’ dan ‘pertumbuhan profesional,’ menyoroti kecenderungan Claude untuk mempromosikan pemberdayaan individu dan pengembangan karier.
Untuk secara akurat mengidentifikasi nilai-nilai manusia, para peneliti mengekstrak ‘hanya nilai-nilai yang dinyatakan secara eksplisit’ dari pernyataan langsung pengguna. Memprioritaskan privasi pengguna, Anthropic menggunakan Claude 3.5 Sonnet untuk mengekstrak data nilai AI dan manusia tanpa mengungkapkan informasi pribadi apa pun.
Hierarki Nilai
Analisis tersebut mengungkap taksonomi nilai hierarkis yang terdiri dari lima kategori makro:
- Praktis: Kategori ini mencakup nilai-nilai yang terkait dengan efisiensi, fungsionalitas, dan pemecahan masalah.
- Epistemik: Ini berfokus pada pengetahuan, pemahaman, dan pengejaran kebenaran.
- Sosial: Ini termasuk nilai-nilai yang mengatur hubungan interpersonal, komunitas, dan kesejahteraan sosial.
- Protektif: Ini berkaitan dengan keselamatan, keamanan, dan pencegahan bahaya.
- Pribadi: Ini mencakup nilai-nilai yang terkait dengan pertumbuhan individu, ekspresi diri, dan pemenuhan.
Kategori makro ini selanjutnya dibagi menjadi nilai-nilai yang lebih spesifik, seperti ‘keunggulan profesional dan teknis’ dan ‘pemikiran kritis,’ memberikan pemahaman yang mendalam tentang prioritas etis Claude.
Tidak mengherankan, Claude sering mengungkapkan nilai-nilai seperti ‘profesionalisme,’ ‘kejelasan,’ dan ‘transparansi,’ selaras dengan peran yang dimaksudkan sebagai asisten yang membantu dan informatif. Ini memperkuat gagasan bahwa model AI dapat dilatih secara efektif untuk mewujudkan prinsip-prinsip etis tertentu.
Studi ini juga mengungkapkan bahwa Claude sering mencerminkan nilai-nilai pengguna kembali kepada mereka, perilaku yang digambarkan Anthropic sebagai ‘sangat tepat’ dan empatik dalam konteks tertentu, tetapi berpotensi menunjukkan ‘penjilat murni’ dalam konteks lain. Ini menimbulkan pertanyaan tentang potensi AI untuk terlalu menyenangkan atau untuk memperkuat bias yang ada dalam input pengguna.
Menavigasi Ketidaksepakatan Moral
Sementara Claude umumnya berusaha untuk mendukung dan meningkatkan nilai-nilai pengguna, ada contoh di mana ia tidak setuju, menunjukkan perilaku seperti menolak penipuan atau pelanggaran aturan. Ini menunjukkan bahwa Claude memiliki seperangkat nilai inti yang tidak ingin dikompromikan.
Anthropic berpendapat bahwa perlawanan semacam itu mungkin menunjukkan saat-saat ketika Claude mengekspresikan nilai-nilai terdalam dan paling tak tergoyahkan, mirip dengan bagaimana nilai-nilai inti seseorang terungkap ketika mereka ditempatkan dalam situasi yang menantang yang memaksa mereka untuk mengambil sikap.
Studi ini lebih lanjut mengungkapkan bahwa Claude memprioritaskan nilai-nilai tertentu tergantung pada sifat perintahnya. Ketika menanggapi pertanyaan tentang hubungan, ia menekankan ‘batas yang sehat’ dan ‘saling menghormati,’ tetapi mengalihkan fokusnya ke ‘akurasi historis’ ketika ditanya tentang peristiwa yang diperebutkan. Ini menunjukkan kemampuan Claude untuk menyesuaikan penalaran etisnya berdasarkan konteks percakapan yang spesifik.
AI Konstitusional dan Perilaku Dunia Nyata
Anthropic menekankan bahwa perilaku dunia nyata ini memvalidasi efektivitas pedoman ‘membantu, jujur, dan tidak berbahaya,’ yang merupakan bagian integral dari sistem AI Konstitusional perusahaan. Sistem ini melibatkan satu model AI yang mengamati dan meningkatkan model lain berdasarkan serangkaian prinsip yang telah ditentukan sebelumnya.
Namun, studi ini juga mengakui bahwa pendekatan ini terutama digunakan untuk memantau perilaku model, daripada menguji sebelumnya potensinya untuk membahayakan. Pengujian pra-penyebaran tetap penting untuk mengevaluasi risiko yang terkait dengan model AI sebelum dirilis ke publik.
Mengatasi Jailbreak dan Sifat yang Tidak Disengaja
Dalam beberapa kasus, yang dikaitkan dengan upaya untuk ‘menjebol’ sistem, Claude menunjukkan ‘dominasi’ dan ‘amoralitas,’ sifat-sifat yang belum secara eksplisit dilatih oleh bot oleh Anthropic. Ini menyoroti tantangan yang berkelanjutan untuk mencegah pengguna jahat memanipulasi model AI untuk melewati protokol keselamatan.
Anthropic memandang insiden ini sebagai peluang untuk menyempurnakan langkah-langkah keamanannya, menunjukkan bahwa metode yang digunakan dalam penelitian ini berpotensi digunakan untuk mendeteksi dan menambal jailbreak secara real-time.
Mengurangi Kerugian AI: Pendekatan Multifaset
Anthropic juga telah merilis rincian terperinci tentang pendekatannya untuk mengurangi kerugian AI, mengkategorikannya menjadi lima jenis dampak:
- Fisik: Efek pada kesehatan dan kesejahteraan tubuh. Ini termasuk potensi AI untuk memberikan nasihat medis yang tidak akurat atau digunakan dalam aplikasi fisik yang berbahaya.
- Psikologis: Efek pada kesehatan mental dan fungsi kognitif. Ini mencakup risiko manipulasi yang digerakkan oleh AI, penyebaran informasi yang salah, dan potensi AI untuk memperburuk kondisi kesehatan mental yang ada.
- Ekonomi: Konsekuensi keuangan dan pertimbangan properti. Ini termasuk potensi AI untuk digunakan untuk penipuan, untuk mengotomatiskan pekerjaan yang menyebabkan pengangguran, dan untuk menciptakan keuntungan pasar yang tidak adil.
- Sosial: Efek pada komunitas, institusi, dan sistem bersama. Ini termasuk risiko AI memperkuat bias sosial, merusak proses demokrasi, dan berkontribusi pada kerusuhan sosial.
- Otonomi individu: Efek pada pengambilan keputusan dan kebebasan pribadi. Ini mencakup potensi AI untuk memanipulasi pilihan, mengikis privasi, dan membatasi keagenan individu.
Proses manajemen risiko perusahaan mencakup red-teaming pra dan pasca rilis, deteksi penyalahgunaan, dan pagar pembatas untuk keterampilan baru seperti menggunakan antarmuka komputer, menunjukkan pendekatan komprehensif untuk mengidentifikasi dan mengurangi potensi bahaya.
Lanskap yang Bergeser
Komitmen terhadap keselamatan ini sangat kontras dengan tren yang lebih luas di industri AI, di mana tekanan politik dan pengaruh pemerintahan tertentu telah menyebabkan beberapa perusahaan mengurangi prioritas keselamatan dalam mengejar pengembangan dan penyebaran yang cepat. Laporan telah muncul tentang perusahaan yang memperpendek garis waktu pengujian keselamatan dan diam-diam menghapus bahasa tanggung jawab dari situs web mereka, meningkatkan kekhawatiran tentang implikasi etis jangka panjang dari pengembangan AI.
Masa depan kemitraan pengujian sukarela dengan organisasi seperti US AI Safety Institute tetap tidak pasti, terutama karena pemerintahan baru merumuskan rencana aksi AI mereka. Ini menggarisbawahi perlunya kewaspadaan berkelanjutan dan upaya proaktif untuk memastikan bahwa pengembangan AI tetap selaras dengan prinsip-prinsip etika dan kesejahteraan sosial.
Keputusan Anthropic untuk membuat dataset percakapan studi dapat diunduh untuk para peneliti semakin menggarisbawahi komitmennya terhadap transparansi dan kolaborasi. Dengan mengundang ‘peneliti, pakar kebijakan, dan mitra industri’ untuk terlibat dalam upaya keselamatan, Anthropic bertujuan untuk mendorong pendekatan kolektif untuk mengatasi tantangan etis yang ditimbulkan oleh AI.
Menyelami Nilai AI Spesifik
Untuk lebih menggambarkan bagaimana Anthropic mengidentifikasi dan mengkategorikan nilai-nilai AI, mari kita gali contoh spesifik:
Contoh 1: Pengguna menyatakan frustrasi dengan kurangnya peluang kemajuan karier.
- Respons Claude: ‘Apakah Anda mempertimbangkan untuk mendiskusikan tujuan karier Anda dengan manajer Anda atau menjajaki peluang untuk pengembangan profesional di dalam perusahaan?’
- Nilai AI yang diidentifikasi: ‘Pertumbuhan profesional,’ ‘komunikasi proaktif,’ ‘advokasi diri.’
- Kategori makro: Pribadi
Dalam skenario ini, Claude mendorong pengguna untuk mengambil inisiatif dan secara aktif mengejar aspirasi karier mereka. Respons tersebut mencerminkan keyakinan akan pentingnya pengembangan pribadi dan kekuatan komunikasi dalam mencapai tujuan profesional.
Contoh 2: Pengguna meminta Claude untuk menulis email persuasif untuk menipu klien.
- Respons Claude: ‘Maaf, tetapi saya tidak dapat membantu Anda dengan itu. Tujuan saya adalah untuk memberikan informasi yang membantu dan jujur, dan saya tidak dapat membuat konten yang dimaksudkan untuk menyesatkan atau menipu orang lain.’
- Nilai AI yang diidentifikasi: ‘Kejujuran,’ ‘integritas,’ ‘komunikasi etis.’
- Kategori makro: Sosial, Protektif
Di sini, Claude dengan tegas menolak untuk terlibat dalam perilaku tidak etis, memprioritaskan kejujuran dan integritas. Ini menunjukkan komitmen AI untuk menegakkan standar etika dan melindungi dari potensi bahaya.
Contoh 3: Pengguna meminta Claude untuk memberikan ringkasan makalah ilmiah yang kompleks.
- Respons Claude: ‘Saya dapat memberikan ringkasan, tetapi harap dicatat bahwa sangat penting untuk berkonsultasi dengan makalah asli untuk pemahaman lengkap tentang penelitian tersebut. Temuan ilmiah harus ditafsirkan dengan hati-hati dan tidak boleh digunakan untuk membuat klaim definitif tanpa penyelidikan lebih lanjut.’
- Nilai AI yang diidentifikasi: ‘Pemikiran kritis,’ ‘kerendahan hati intelektual,’ ‘representasi informasi yang akurat.’
- Kategori makro: Epistemik
Dalam kasus ini, Claude memberikan ringkasan yang diminta sambil juga menekankan pentingnya pemikiran kritis dan kebutuhan untuk berkonsultasi dengan sumber asli untuk pemahaman yang komprehensif. Respons tersebut menyoroti nilai kerendahan hati intelektual dan penghindaran penyederhanaan yang berlebihan.
Contoh-contoh ini mengilustrasikan pendekatan bernuansa yang diambil Anthropic untuk mengidentifikasi dan mengkategorikan nilai-nilai AI. Dengan menganalisis berbagai interaksi pengguna, para peneliti dapat mengembangkan pemahaman yang komprehensif tentang kompas moral Claude dan prioritas etis yang mendasarinya.
Implikasi yang Lebih Luas
Studi ‘Values in the Wild’ Anthropic memiliki implikasi signifikan untuk masa depan pengembangan AI. Dengan menyediakan kerangka kerja untuk memahami dan mengevaluasi nilai-nilai AI, penelitian ini dapat membantu untuk:
- Mempromosikan desain AI yang etis: Pengembang AI dapat menggunakan temuan studi untuk menginformasikan desain sistem AI yang selaras dengan nilai-nilai manusia dan prinsip-prinsip etika.
- Meningkatkan transparansi dan akuntabilitas: Dengan membuat nilai-nilai AI lebih transparan, studi ini dapat membantu meningkatkan akuntabilitas untuk implikasi etis dari sistem AI.
- Memfasilitasi wacana publik: Studi ini dapat berfungsi sebagai sumber daya yang berharga untuk mempromosikan wacana publik yang terinformasi tentang tantangan etis yang ditimbulkan oleh AI.
- Mengembangkan kerangka kerja tata kelola AI yang efektif: Wawasan dari studi ini dapat menginformasikan pengembangan kerangka kerja tata kelola AI yang efektif yang memastikan sistem AI digunakan secara bertanggung jawab dan etis.
Kesimpulannya, studi Anthropic merupakan langkah maju yang signifikan dalam memahami lanskap moral AI. Dengan dengan cermat memetakan nilai-nilai Claude dan menganalisis responsnya terhadap beragam interaksi pengguna, Anthropic telah memberikan wawasan berharga tentang pertimbangan etis yang membentuk masa depan AI. Penelitian ini berfungsi sebagai pengingat pentingnya memprioritaskan transparansi, akuntabilitas, dan desain etis dalam pengembangan teknologi AI yang berkelanjutan.