Model AI DeepSeek: Dilatih dengan Gemini? Kontroversi Terungkap

Dunia kecerdasan buatan (AI) tidak asing dengan kontroversi, dan perkembangan terbaru melibatkan lab AI Tiongkok DeepSeek. Baru-baru ini, DeepSeek meluncurkan versi terbaru dari model penalaran R1-nya, yang menampilkan kemampuan mengesankan dalam mengatasi tolok ukur matematika dan pengkodean. Namun, sumber data yang digunakan untuk melatih model ini telah memicu perdebatan yang cukup besar di antara para peneliti AI, dengan beberapa berspekulasi bahwa data tersebut mungkin berasal, setidaknya sebagian, dari keluarga model AI Gemini dari Google. Kecurigaan ini menimbulkan pertanyaan signifikan tentang praktik etis, sumber data, dan lanskap kompetitif di dalam industri AI.

Bukti yang Disajikan

Kontroversi dimulai ketika Sam Paech, seorang pengembang yang berbasis di Melbourne yang berspesialisasi dalam membuat evaluasi “kecerdasan emosional” untuk sistem AI, menyajikan apa yang dia klaim sebagai bukti bahwa model terbaru DeepSeek telah dilatih pada keluaran yang dihasilkan oleh Gemini. Menurut Paech, model DeepSeek, yang diidentifikasi sebagai R1-0528, menunjukkan preferensi untuk kata dan ekspresi tertentu yang sangat mirip dengan yang disukai oleh Google Gemini 2.5 Pro. Sementara pengamatan ini saja mungkin tidak konklusif, itu menimbulkan bendera merah dan memerlukan penyelidikan lebih lanjut.

Menambah intrik, pengembang lain, yang beroperasi dengan nama samaran SpeechMap dan dikenal karena membuat evaluasi “kebebasan berbicara” untuk AI, menunjukkan bahwa jejak model DeepSeek – “pikiran” yang dihasilkannya saat ia bekerja menuju kesimpulan – “terbaca seperti jejak Gemini.” Konvergensi pola linguistik dan proses berpikir ini semakin memicu kecurigaan bahwa DeepSeek mungkin telah memanfaatkan keluaran Gemini selama proses pelatihan.

Tuduhan Masa Lalu Terhadap DeepSeek

Ini bukan pertama kalinya DeepSeek menghadapi tuduhan melatih model AI-nya pada data dari sistem AI saingan. Kembali pada bulan Desember, pengembang memperhatikan bahwa model V3 DeepSeek sering mengidentifikasi dirinya sebagai ChatGPT, platform chatbot bertenaga AI OpenAI. Perilaku aneh ini menunjukkan bahwa model tersebut mungkin telah dilatih pada log obrolan ChatGPT, menimbulkan kekhawatiran tentang implikasi etis dari praktik semacam itu.

Awal tahun ini, OpenAI memberi tahu Financial Times bahwa mereka telah menemukan bukti yang menghubungkan DeepSeek dengan penggunaan distilasi, teknik yang melibatkan pelatihan model AI dengan mengekstraksi data dari model yang lebih besar dan lebih mumpuni. Selain itu, Microsoft, kolaborator utama dan investor di OpenAI, mendeteksi sejumlah besar data yang dieksfiltrasi melalui akun pengembang OpenAI pada akhir tahun 2024. OpenAI percaya bahwa akun-akun ini berafiliasi dengan DeepSeek, semakin memperkuat kecurigaan ekstraksi data yang tidak sah.

Sementara distilasi tidak secara inheren tidak etis, persyaratan layanan OpenAI secara eksplisit melarang pelanggan menggunakan keluaran model perusahaan untuk membangun sistem AI pesaing. Pembatasan ini bertujuan untuk melindungi kekayaan intelektual OpenAI dan menjaga lingkungan kompetitif yang adil di dalam industri AI. Jika DeepSeek memang menggunakan distilasi untuk melatih model R1-nya pada keluaran Gemini, itu akan merupakan pelanggaran terhadap persyaratan layanan OpenAI dan menimbulkan masalah etika yang serius.

Tantangan Kontaminasi Data

Penting untuk mengakui bahwa banyak model AI menunjukkan kecenderungan untuk salah mengidentifikasi diri mereka sendiri dan menyatu pada kata dan frasa yang serupa. Fenomena ini dapat dikaitkan dengan meningkatnya kehadiran konten yang dihasilkan AI di web terbuka, yang berfungsi sebagai sumber utama data pelatihan untuk perusahaan AI. Peternakan konten menggunakan AI untuk membuat artikel clickbait, dan bot membanjiri platform seperti Reddit dan X dengan posting yang dihasilkan AI.

“Kontaminasi” web ini dengan konten yang dihasilkan AI menimbulkan tantangan signifikan bagi perusahaan AI, membuatnya sangat sulit untuk secara menyeluruh menyaring keluaran AI dari set data pelatihan. Akibatnya, model AI mungkin secara tidak sengaja belajar satu sama lain, yang mengarah pada kesamaan yang diamati dalam bahasa dan proses berpikir.

Opini dan Perspektif Ahli

Terlepas dari tantangan kontaminasi data, para ahli AI seperti Nathan Lambert, seorang peneliti di lembaga penelitian AI nirlaba AI2, percaya bahwa tidak masuk akal bahwa DeepSeek dilatih pada data dari Google Gemini. Lambert menyarankan bahwa DeepSeek, menghadapi kekurangan GPU tetapi memiliki sumber daya keuangan yang cukup, mungkin telah memilih untuk menghasilkan data sintetis dari model API terbaik yang tersedia. Dalam pandangannya, pendekatan ini bisa lebih efisien secara komputasi untuk DeepSeek.

Perspektif Lambert menyoroti pertimbangan praktis yang dapat mendorong perusahaan AI untuk mengeksplorasi strategi sumber data alternatif. Sementara penggunaan data sintetis dapat menjadi teknik yang sah dan efektif, sangat penting untuk memastikan bahwa data tersebut dihasilkan secara etis dan tidak melanggar persyaratan layanan atau pedoman etis apa pun.

Tindakan Keamanan dan Upaya Pencegahan

Menanggapi kekhawatiran seputar distilasi dan kontaminasi data, perusahaan AI telah meningkatkan tindakan keamanan mereka. OpenAI, misalnya, telah menerapkan persyaratan bagi organisasi untuk menyelesaikan proses verifikasi ID untuk mengakses model lanjutan tertentu. Proses ini membutuhkan ID yang dikeluarkan pemerintah dari salah satu negara yang didukung oleh API OpenAI, tidak termasuk Tiongkok dari daftar.

Google juga telah mengambil langkah-langkah untuk mengurangi risiko distilasi dengan “merangkum” jejak yang dihasilkan oleh model yang tersedia melalui platform pengembang AI Studio-nya. Proses peringkasan ini membuat lebih menantang untuk melatih model saingan berperforma pada jejak Gemini. Demikian pula, Anthropic mengumumkan pada bulan Mei bahwa mereka akan mulai merangkum jejak modelnya sendiri, dengan alasan kebutuhan untuk melindungi “keunggulan kompetitifnya.”

Tindakan keamanan ini mewakili upaya bersama oleh perusahaan AI untuk melindungi kekayaan intelektual mereka dan mencegah ekstraksi data yang tidak sah. Dengan menerapkan kontrol akses yang lebih ketat dan mengaburkan jejak model, mereka bertujuan untuk menghalangi praktik tidak etis dan menjaga lapangan permainan yang setara di dalam industri AI.

Respons Google

Ketika dihubungi untuk memberikan komentar, Google belum menanggapi tuduhan tersebut. Keheningan ini menyisakan ruang untuk spekulasi dan semakin mengintensifkan kontroversi. Saat komunitas AI menunggu pernyataan resmi dari Google, pertanyaan seputar praktik sumber data DeepSeek terus membayangi.

Implikasi untuk Industri AI

Kontroversi DeepSeek menimbulkan pertanyaan mendasar tentang batasan etis pengembangan AI dan pentingnya sumber data yang bertanggung jawab. Saat model AI menjadi semakin canggih dan mampu, godaan untuk memotong sudut dan memanfaatkan data yang tidak sah mungkin tumbuh lebih kuat. Namun, praktik semacam itu dapat memiliki konsekuensi yang merugikan, merusak integritas industri AI dan mengikis kepercayaan publik.

Untuk memastikan keberlanjutan jangka panjang dan pengembangan AI yang etis, sangat penting bahwa perusahaan AI mematuhi pedoman etis yang ketat dan memprioritaskan praktik sumber data yang bertanggung jawab. Ini termasuk mendapatkan persetujuan eksplisit dari penyedia data, menghormati hak kekayaan intelektual, dan menghindari penggunaan data yang tidak sah atau bias.

Selain itu, transparansi dan akuntabilitas yang lebih besar diperlukan di dalam industri AI. Perusahaan AI harus lebih terus terang tentang praktik sumber data mereka dan metode yang digunakan untuk melatih model mereka. Peningkatan transparansi ini akan membantu menumbuhkan kepercayaan dan keyakinan pada sistem AI dan mempromosikan ekosistem AI yang lebih etis dan bertanggung jawab.

Kontroversi DeepSeek berfungsi sebagai pengingat tepat waktu tentang tantangan dan pertimbangan etis yang harus ditangani ketika teknologi AI terus berkembang. Dengan menjunjung tinggi prinsip-prinsip etis, mempromosikan transparansi, dan mendorong kolaborasi, komunitas AI dapat memastikan bahwa AI digunakan untuk kepentingan masyarakat dan bukan dengan mengorbankan nilai-nilai etis.

Selami Lebih Dalam Aspek Teknis

Untuk lebih memahami nuansa masalah ini, penting untuk mempelajari lebih dalam aspek teknis tentang bagaimana model AI dilatih dan teknik khusus yang dipermasalahkan, yaitu distilasi dan pembuatan data sintetis.

Distilasi: Mengkloning Kecerdasan?

Distilasi, dalam konteks AI, mengacu pada teknik kompresi model di mana model “siswa” yang lebih kecil dan lebih efisien dilatih untuk meniru perilaku model “guru” yang lebih besar dan lebih kompleks. Model siswa belajar dengan mengamati keluaran model guru, secara efektif mengekstraksi pengetahuan dan mentransfernya ke arsitektur yang lebih kecil. Sementara distilasi dapat bermanfaat untuk menyebarkan model AI pada perangkat dengan sumber daya terbatas, distilasi menimbulkan masalah etika ketika data atau arsitektur model guru bersifat eksklusif.

Jika DeepSeek menggunakan keluaran Gemini untuk melatih model R1-nya melalui distilasi tanpa izin, itu akan mirip dengan mengkloning kecerdasan Gemini dan berpotensi melanggar hak kekayaan intelektual Google. Kuncinya di sini adalah penggunaan keluaran Gemini yang tidak sah, yang dilindungi oleh hak cipta dan mekanisme hukum lainnya.

Pembuatan Data Sintetis: Pedang Bermata Dua

Pembuatan data sintetis melibatkan pembuatan titik data buatan yang menyerupai data dunia nyata. Teknik ini sering digunakan untuk menambah set data pelatihan, terutama ketika data nyata langka atau mahal untuk diperoleh. Namun, kualitas dan implikasi etis dari data sintetis sangat bergantung pada bagaimana data tersebut dihasilkan.

Jika DeepSeek menggunakan API Gemini untuk menghasilkan data sintetis, pertanyaannya menjadi: seberapa dekat data ini menyerupai keluaran Gemini yang sebenarnya, dan apakah itu melanggar kekayaan intelektual Google? Jika data sintetis hanya terinspirasi oleh Gemini tetapi tidak secara langsung mereplikasi keluarannya, itu mungkin dianggap penggunaan wajar. Namun, jika data sintetis praktis tidak dapat dibedakan dari keluaran Gemini, itu dapat menimbulkan kekhawatiran yang sama dengan distilasi.

Implikasi Model Overfitting

Kekhawatiran terkait lainnya adalah model overfitting. Overfitting terjadi ketika model mempelajari data pelatihan terlalu baik, sampai-sampai ia berkinerja buruk pada data baru yang tidak terlihat. Jika DeepSeek melatih model R1-nya secara berlebihan pada keluaran Gemini, itu dapat menyebabkan overfitting, di mana model pada dasarnya menghafal tanggapan Gemini alih-alih menggeneralisasi ke situasi baru.

Overfitting semacam ini tidak hanya akan membatasi penerapan model R1 tetapi juga membuatnya lebih mudah untuk mendeteksi ketergantungannya pada data Gemini. “Jejak” yang dicatat oleh SpeechMap bisa menjadi bukti overfitting ini, di mana model R1 pada dasarnya memuntahkan pola yang dipelajari dari keluaran Gemini.

Pertimbangan Etis dan Praktik Terbaik Industri

Di luar aspek teknis, kontroversi ini menyoroti perlunya pedoman etis dan praktik terbaik industri yang jelas untuk pengembangan AI. Beberapa prinsip utama meliputi:

  • Transparansi: Perusahaan AI harus transparan tentang sumber data dan metodologi pelatihan mereka. Ini memungkinkan audit dan verifikasi independen.
  • Persetujuan: Perusahaan AI harus mendapatkan persetujuan eksplisit dari penyedia data sebelum menggunakan data mereka untuk pelatihan. Ini termasuk menghormati hak kekayaan intelektual dan menghindari pengikisan data yang tidak sah.
  • Keadilan: Model AI harus adil dan tidak bias. Ini membutuhkan perhatian cermat terhadap keragaman data dan mitigasi bias algoritmik.
  • Akuntabilitas: Perusahaan AI harus bertanggung jawab atas tindakan model AI mereka. Ini termasuk membangun kerangka kerja tanggung jawab yang jelas dan mengatasi kerugian yang disebabkan oleh sistem AI.
  • Keamanan: Perusahaan AI harus memprioritaskan keamanan model dan data AI mereka. Ini termasuk melindungi dari akses yang tidak sah dan mencegah pelanggaran data.

Peran Regulasi

Selain pedoman etis dan praktik terbaik industri, regulasi mungkin diperlukan untuk mengatasi tantangan yang ditimbulkan oleh pengembangan AI. Beberapa tindakan regulasi potensial meliputi:

  • Undang-undang privasi data: Undang-undang yang melindungi data individu dan membatasi penggunaan informasi pribadi untuk pelatihan AI.
  • Undang-undang kekayaan intelektual: Undang-undang yang melindungi model dan data AI dari penyalinan dan distribusi yang tidak sah.
  • Undang-undang persaingan: Undang-undang yang mencegah perilaku anti-persaingan di industri AI, seperti penimbunan data dan akses yang tidak adil ke sumber daya.
  • Peraturan keselamatan: Peraturan yang memastikan keselamatan dan keandalan sistem AI yang digunakan dalam aplikasi penting.

Dengan menggabungkan pedoman etis, praktik terbaik industri, dan regulasi yang sesuai, kita dapat menciptakan ekosistem AI yang lebih bertanggung jawab dan berkelanjutan yang menguntungkan masyarakat secara keseluruhan. Kontroversi DeepSeek berfungsi sebagai peringatan, mendesak kita untuk mengatasi tantangan ini secara proaktif dan memastikan bahwa AI dikembangkan dengan cara yang selaras dengan nilai dan prinsip kita.