Mengungkap Asal-Usul Pelatihan DeepSeek-R1
Penelitian terbaru yang dilakukan oleh Copyleaks, sebuah perusahaan yang berspesialisasi dalam deteksi dan tata kelola AI, telah menunjukkan jawaban definitif mengenai apakah DeepSeek-R1 dilatih pada model OpenAI: ya. DeepSeek, chatbot bertenaga AI yang tersedia tanpa biaya, memiliki kemiripan yang mencolok dengan ChatGPT dalam penampilan, rasa, dan fungsinya.
Teknik Pengambilan Sidik Jari: Mengidentifikasi AI Pembuat
Untuk menjelaskan asal-usul teks yang dihasilkan AI, para peneliti mengembangkan alat sidik jari teks yang inovatif. Alat ini dirancang untuk menentukan model AI spesifik yang bertanggung jawab untuk menghasilkan sepotong teks tertentu. Para peneliti dengan cermat melatih alat tersebut menggunakan kumpulan data besar yang terdiri dari ribuan sampel yang dihasilkan AI. Selanjutnya, mereka mengujinya menggunakan model AI yang dikenal, dan hasilnya tidak ambigu.
Kemiripan yang Mengejutkan: DeepSeek-R1 dan OpenAI
Pengujian tersebut mengungkapkan statistik yang meyakinkan: 74,2 persen teks yang dihasilkan oleh DeepSeek-R1 menunjukkan kesamaan gaya dengan output OpenAI. Korelasi yang kuat ini sangat menyarankan bahwa DeepSeek menggabungkan model OpenAI selama fase pelatihannya.
Pendekatan yang Berbeda: Phi-4 Microsoft
Untuk memberikan perspektif yang kontras, pertimbangkan model Phi-4 Microsoft. Dalam pengujian yang sama, Phi-4 menunjukkan ‘ketidaksetujuan’ yang luar biasa sebesar 99,3 persen dengan model yang dikenal. Hasil ini berfungsi sebagai bukti kuat dari pelatihan independen, yang menandakan bahwa Phi-4 dikembangkan tanpa bergantung pada model yang ada. Perbedaan mencolok antara sifat independen Phi-4 dan kemiripan DeepSeek yang luar biasa dengan OpenAI menggarisbawahi replikasi atau penyalinan yang jelas dari DeepSeek.
Kekhawatiran Etika dan Kekayaan Intelektual
Pengungkapan ini menimbulkan kekhawatiran serius tentang kemiripan DeepSeek-R1 dengan model OpenAI. Kekhawatiran ini mencakup beberapa area kritis, termasuk:
- Sumber Data: Asal data yang digunakan untuk melatih DeepSeek-R1 menjadi pertanyaan krusial.
- Hak Kekayaan Intelektual: Potensi pelanggaran hak kekayaan intelektual OpenAI adalah kekhawatiran yang signifikan.
- Transparansi: Kurangnya transparansi mengenai metodologi pelatihan DeepSeek menimbulkan pertanyaan etis.
Tim Peneliti dan Metodologi
Tim Ilmu Data Copyleaks, yang dipimpin oleh Yehonatan Bitton, Shai Nisan, dan Elad Bitton, melakukan penelitian inovatif ini. Metodologi mereka berpusat pada pendekatan ‘juri bulat’. Pendekatan ini melibatkan tiga sistem deteksi yang berbeda, yang masing-masing bertugas mengklasifikasikan teks yang dihasilkan AI. Penilaian konklusif hanya dicapai ketika ketiga sistem tersebut sepakat.
Implikasi Operasional dan Pasar
Selain masalah etika dan kekayaan intelektual, ada implikasi operasional praktis yang perlu dipertimbangkan. Ketergantungan yang tidak diungkapkan pada model yang ada dapat menyebabkan beberapa masalah:
- Penguatan Bias: Bias yang ada dalam model asli dapat diabadikan.
- Keberagaman Terbatas: Keberagaman output mungkin dibatasi, menghambat inovasi.
- Risiko Hukum dan Etika: Dampak hukum atau etika yang tidak terduga dapat muncul.
Selain itu, klaim DeepSeek tentang metode pelatihan yang revolusioner dan hemat biaya, jika terbukti didasarkan pada penyulingan teknologi OpenAI yang tidak sah, dapat memiliki dampak pasar yang signifikan. Ini mungkin telah berkontribusi pada kerugian satu hari NVIDIA yang substansial sebesar $593 miliar dan berpotensi memberi DeepSeek keuntungan kompetitif yang tidak adil.
Pendekatan yang Ketat: Menggabungkan Beberapa Pengklasifikasi
Metodologi penelitian menggunakan pendekatan yang sangat ketat, mengintegrasikan tiga pengklasifikasi AI tingkat lanjut. Masing-masing pengklasifikasi ini dilatih dengan cermat pada sampel teks dari empat model AI terkemuka:
- Claude
- Gemini
- Llama
- OpenAI
Pengklasifikasi ini dirancang untuk mengidentifikasi nuansa gaya yang halus, termasuk:
- Struktur Kalimat: Susunan kata dan frasa dalam kalimat.
- Kosakata: Pilihan kata dan frekuensinya.
- Frase: Gaya dan nada ekspresi secara keseluruhan.
Sistem ‘Juri Bulat’: Memastikan Akurasi
Sistem ‘juri bulat’ adalah elemen kunci dari metodologi, memastikan pemeriksaan yang kuat terhadap positif palsu. Sistem ini mengharuskan ketiga pengklasifikasi untuk secara independen menyetujui klasifikasi sebelum dianggap final. Kriteria ketat ini menghasilkan tingkat presisi yang luar biasa sebesar 99,88 persen dan tingkat positif palsu yang sangat rendah, hanya 0,04 persen. Sistem ini menunjukkan kemampuannya untuk secara akurat mengidentifikasi teks dari model AI yang dikenal dan tidak dikenal.
Di Luar Deteksi AI: Atribusi Khusus Model
‘Dengan penelitian ini, kami telah melampaui deteksi AI umum seperti yang kami ketahui dan masuk ke atribusi khusus model, sebuah terobosan yang secara fundamental mengubah cara kami mendekati konten AI,’ kata Shai Nisan, Chief Data Scientist di Copyleaks.
Pentingnya Atribusi Model
Nisan lebih lanjut menekankan pentingnya kemampuan ini: ‘Kemampuan ini sangat penting karena berbagai alasan, termasuk meningkatkan transparansi secara keseluruhan, memastikan praktik pelatihan AI yang etis, dan, yang paling penting, melindungi hak kekayaan intelektual dari teknologi AI dan, mudah-mudahan, mencegah potensi penyalahgunaannya.’
Menggali Lebih Dalam: Implikasi dari Pendekatan DeepSeek
Temuan penelitian ini memiliki implikasi luas yang melampaui pertanyaan langsung apakah DeepSeek menyalin model OpenAI. Mari kita jelajahi beberapa implikasi ini secara lebih rinci:
Ilusi Inovasi
Jika pelatihan DeepSeek sangat bergantung pada model OpenAI, itu menimbulkan pertanyaan tentang sejauh mana inovasinya yang sebenarnya. Sementara DeepSeek mungkin telah menyajikan chatbot-nya sebagai ciptaan baru, teknologi yang mendasarinya mungkin kurang inovatif daripada yang diklaim sebelumnya. Ini dapat menyesatkan pengguna dan investor yang percaya bahwa mereka berinteraksi dengan sistem AI yang benar-benar unik.
Dampak pada Lanskap AI
Adopsi luas model AI yang dilatih pada model lain dapat memiliki efek homogenisasi pada lanskap AI. Jika banyak sistem AI pada akhirnya berasal dari beberapa model dasar, itu dapat membatasi keragaman pendekatan dan perspektif di lapangan. Ini dapat menghambat inovasi dan mengarah pada ekosistem AI yang kurang dinamis dan kompetitif.
Kebutuhan akan Transparansi yang Lebih Besar
Kasus ini menyoroti kebutuhan mendesak akan transparansi yang lebih besar dalam pengembangan dan penerapan model AI. Pengguna dan pemangku kepentingan berhak mengetahui bagaimana sistem AI dilatih dan sumber data apa yang digunakan. Informasi ini sangat penting untuk menilai potensi bias, keterbatasan, dan implikasi etis dari sistem ini.
Peran Regulasi
Kasus DeepSeek juga dapat memicu perdebatan tentang perlunya regulasi yang lebih besar dari industri AI. Pemerintah dan badan pengatur mungkin perlu mempertimbangkan langkah-langkah untuk memastikan bahwa pengembang AI mematuhi pedoman etika, melindungi hak kekayaan intelektual, dan mempromosikan transparansi.
Masa Depan Pengembangan AI
Kontroversi seputar metode pelatihan DeepSeek dapat berfungsi sebagai katalis untuk diskusi yang lebih luas tentang masa depan pengembangan AI. Ini dapat mendorong evaluasi ulang praktik terbaik, pertimbangan etis, dan pentingnya orisinalitas dalam pembuatan sistem AI.
Seruan untuk Pengembangan AI yang Bertanggung Jawab
Kasus DeepSeek berfungsi sebagai pengingat akan pentingnya pengembangan AI yang bertanggung jawab. Ini menggarisbawahi perlunya:
- Orisinalitas: Pengembang AI harus berusaha untuk menciptakan model yang benar-benar baru daripada sangat bergantung pada model yang ada.
- Transparansi: Data pelatihan dan metodologi yang digunakan untuk mengembangkan sistem AI harus diungkapkan kepada pengguna dan pemangku kepentingan.
- Pertimbangan Etis: Pengembangan AI harus dipandu oleh prinsip-prinsip etika, termasuk keadilan, akuntabilitas, dan penghormatan terhadap hak kekayaan intelektual.
- Kolaborasi: Kolaborasi terbuka dan berbagi pengetahuan dalam komunitas AI dapat membantu mendorong inovasi dan mencegah replikasi bias yang ada.
Jalan ke Depan: Memastikan Masa Depan AI yang Beragam dan Etis
Tujuan utamanya adalah untuk menciptakan ekosistem AI yang beragam dan etis di mana inovasi berkembang dan pengguna dapat mempercayai sistem yang berinteraksi dengan mereka. Ini membutuhkan komitmen terhadap praktik pengembangan AI yang bertanggung jawab, transparansi, dan dialog berkelanjutan tentang implikasi etis dari teknologi yang berkembang pesat ini. Kasus DeepSeek berfungsi sebagai pelajaran berharga, menyoroti potensi jebakan dari terlalu bergantung pada model yang ada dan menekankan pentingnya orisinalitas dan pertimbangan etis dalam mengejar kemajuan AI. Masa depan AI bergantung pada pilihan yang kita buat hari ini, dan sangat penting bagi kita untuk memprioritaskan pengembangan yang bertanggung jawab untuk memastikan masa depan yang bermanfaat dan adil bagi semua.
Temuan investigasi Copyleaks telah menjelaskan aspek penting dari pengembangan AI, dan sangat penting bagi industri secara keseluruhan untuk belajar dari pengalaman ini untuk mendorong masa depan yang lebih transparan, etis, dan inovatif.