Pelatihan AI DeepSeek Diperiksa: Gemini Terlibat?

Spekulasi baru-baru ini muncul yang menunjukkan bahwa DeepSeek, sebuah laboratorium AI Tiongkok, mungkin telah menggunakan data dari model AI Gemini Google untuk melatih iterasi terbarunya, model AI penalaran R1. Model ini telah menunjukkan kinerja yang kuat dalam benchmark matematika dan pengkodean. Sementara DeepSeek tetap diam mengenai sumber data yang digunakan untuk melatih R1, beberapa peneliti AI telah mengusulkan bahwa Gemini, atau setidaknya bagian dari Gemini, memainkan peran.

Bukti dan Tuduhan

Sam Paech, seorang pengembang yang berbasis di Melbourne yang berspesialisasi dalam membuat evaluasi “kecerdasan emosional” untuk AI, telah menyajikan apa yang dia yakini sebagai bukti bahwa model DeepSeek dilatih menggunakan keluaran yang dihasilkan oleh Gemini. Paech mencatat dalam sebuah postingan di X (sebelumnya Twitter) bahwa model DeepSeek, khususnya versi R1-0528, menunjukkan preferensi untuk bahasa dan ekspresi yang mirip dengan yang disukai oleh Gemini 2.5 Pro Google.

Selain itu, pengembang lain, yang beroperasi dengan nama samaran pembuat SpeechMap, sebuah “evaluasi kebebasan berbicara” untuk AI, telah mengamati bahwa “pikiran” yang dihasilkan oleh model DeepSeek saat ia bekerja menuju kesimpulan sangat mirip dengan jejak Gemini. Pengamatan ini menambah lapisan intrik lain pada klaim tersebut.

Ini bukan pertama kalinya DeepSeek menghadapi tuduhan memanfaatkan data dari model AI pesaing. Kembali pada bulan Desember, pengembang memperhatikan bahwa model V3 DeepSeek sering mengidentifikasi dirinya sebagai ChatGPT, platform chatbot populer OpenAI. Ini menunjukkan bahwa model tersebut telah dilatih pada log obrolan ChatGPT, meningkatkan kekhawatiran tentang praktik penggunaan data.

Tuduhan Lebih Dalam: Distilasi dan Eksfiltrasi Data

Awal tahun ini, OpenAI berbagi dengan Financial Times bahwa mereka telah menemukan bukti yang menghubungkan DeepSeek dengan penggunaan teknik yang disebut distilasi. Distilasi melibatkan pelatihan model AI dengan mengekstrak data dari model yang lebih besar dan lebih canggih. Bloomberg melaporkan bahwa Microsoft, kolaborator utama dan investor di OpenAI, telah mendeteksi eksfiltrasi data signifikan melalui akun pengembang OpenAI pada akhir tahun 2024. OpenAI percaya bahwa akun-akun ini terhubung ke DeepSeek.

Distilasi, meskipun tidak secara inheren tidak etis, menjadi bermasalah ketika melanggar persyaratan layanan. Persyaratan OpenAI secara eksplisit melarang pelanggan menggunakan keluaran model perusahaan untuk mengembangkan sistem AI pesaing. Ini menimbulkan pertanyaan serius tentang kepatuhan DeepSeek terhadap persyaratan ini.

Perairan Keruh Data Pelatihan AI

Penting untuk mengakui bahwa model AI sering salah mengidentifikasi diri mereka sendiri dan bertemu pada kata dan frasa yang serupa. Hal ini disebabkan oleh sifat web terbuka, yang berfungsi sebagai sumber utama data pelatihan bagi banyak perusahaan AI. Web semakin jenuh dengan konten yang dihasilkan AI. Ladang konten menggunakan AI untuk menghasilkan clickbait, dan bot membanjiri platform seperti Reddit dan X dengan postingan yang dihasilkan AI.

“Kontaminasi” ini membuatnya sangat sulit untuk secara efektif menyaring keluaran AI dari dataset pelatihan, semakin mempersulit pertanyaan apakah DeepSeek dengan sengaja menggunakan data Gemini.

Pendapat dan Perspektif Ahli

Terlepas dari tantangan dalam membuktikan klaim secara definitif, beberapa ahli AI percaya bahwa masuk akal bahwa DeepSeek dilatih pada data dari Gemini Google. Nathan Lambert, seorang peneliti di lembaga penelitian AI nirlaba AI2, menyatakan di X, “Jika saya DeepSeek, saya pasti akan membuat banyak data sintetis dari model API terbaik di luar sana. [DeepSeek] kekurangan GPU dan memiliki banyak uang tunai. Secara harfiah secara efektif lebih banyak komputasi untuk mereka.”

Perspektif Lambert menyoroti potensi insentif ekonomi bagi DeepSeek untuk memanfaatkan model AI yang ada untuk meningkatkan kemampuannya sendiri, terutama mengingat kendala sumber dayanya.

Tindakan Keamanan dan Tindakan Balasan

Perusahaan AI telah meningkatkan tindakan keamanan, sebagian untuk mencegah praktik seperti distilasi. OpenAI, pada bulan April, mulai mewajibkan organisasi untuk menyelesaikan proses verifikasi ID untuk mengakses model lanjutan tertentu. Proses ini melibatkan pengajuan ID yang dikeluarkan pemerintah dari negara yang didukung oleh API OpenAI. Tiongkok secara khusus tidak ada dalam daftar ini.

Dalam langkah lain, Google baru-baru ini mulai “merangkum” jejak yang dihasilkan oleh model yang tersedia melalui platform pengembang AI Studio-nya. Tindakan ini membuat lebih sulit untuk melatih model saingan pada jejak Gemini secara efektif. Demikian pula, Anthropic mengumumkan pada bulan Mei bahwa mereka akan mulai merangkum jejak modelnya sendiri, dengan alasan kebutuhan untuk melindungi “keunggulan kompetitifnya”. Tindakan ini menunjukkan meningkatnya kesadaran akan potensi penyalahgunaan keluaran model AI dan upaya proaktif untuk mengurangi risiko tersebut.

Implikasi dan Konsekuensi

Tuduhan terhadap DeepSeek menimbulkan pertanyaan signifikan tentang etika dan legalitas praktik pelatihan AI. Jika DeepSeek memang menggunakan data Gemini untuk melatih model R1-nya, ia dapat menghadapi dampak hukum dan kerusakan reputasi. Situasi ini juga menyoroti kebutuhan akan transparansi dan regulasi yang lebih besar dalam industri AI, khususnya mengenai sumber dan penggunaan data.

Tuduhan terhadap DeepSeek menggarisbawahi dilema penting: bagaimana menyeimbangkan keinginan untuk inovasi dan kemajuan dalam AI dengan kebutuhan untuk melindungi kekayaan intelektual dan memastikan persaingan yang adil. Industri AI berkembang pesat, dan pedoman yang jelas dan kerangka kerja etika sangat penting untuk menavigasi lanskap hukum dan etika yang kompleks. Perusahaan harus transparan tentang sumber data mereka dan mematuhi perjanjian persyaratan layanan untuk menjaga kepercayaan dan menghindari potensi kewajiban hukum.

Selanjutnya, masalah konten yang dihasilkan AI yang mencemari dataset pelatihan menghadirkan tantangan besar bagi seluruh komunitas AI. Karena model AI menjadi lebih mahir dalam menghasilkan teks, gambar, dan bentuk konten lain yang meyakinkan, menjadi semakin sulit untuk membedakan antara data yang dihasilkan manusia dan yang dihasilkan AI. “Kontaminasi” ini dapat menyebabkan homogenisasi model AI, di mana mereka semua mulai menunjukkan bias dan keterbatasan yang serupa.

Untuk mengatasi tantangan ini, perusahaan AI perlu berinvestasi dalam teknik penyaringan data yang lebih canggih dan menjelajahi sumber data pelatihan alternatif. Mereka juga perlu lebih transparan tentang komposisi dataset pelatihan mereka dan metode yang digunakan untuk menyaring konten yang dihasilkan AI.

Menavigasi Masa Depan Pelatihan AI

Kontroversi DeepSeek menggarisbawahi kebutuhan mendesak akan diskusi yang lebih bernuansa tentang masa depan pelatihan AI. Karena model AI menjadi lebih kuat dan data menjadi lebih langka, perusahaan mungkin tergoda untuk mengambil jalan pintas dan terlibat dalam praktik yang tidak etis atau ilegal. Namun, praktik seperti itu pada akhirnya merusak keberlanjutan jangka panjang dan kepercayaan industri AI.

Upaya kolaboratif yang melibatkan peneliti, pembuat kebijakan, dan pemimpin industri diperlukan untuk mengembangkan pedoman etika dan kerangka kerja hukum yang mempromosikan pengembangan AI yang bertanggung jawab. Pedoman ini harus membahas isu-isu seperti sumber data, transparansi, dan akuntabilitas. Mereka juga harus memberi insentif kepada perusahaan untuk berinvestasi dalam praktik pelatihan AI yang etis dan berkelanjutan.

Pertimbangan Utama untuk Masa Depan Pelatihan AI

  • Transparansi: Perusahaan harus transparan tentang sumber data yang digunakan untuk melatih model AI mereka dan metode yang digunakan untuk menyaring konten yang dihasilkan AI.
  • Etika: Pengembangan AI harus mematuhi prinsip-prinsip etika yang mempromosikan keadilan, akuntabilitas, dan penghormatan terhadap kekayaan intelektual.
  • Regulasi: Pembuat kebijakan harus membuat kerangka kerja hukum yang jelas yang mengatasi tantangan unik yang ditimbulkan oleh pelatihan AI.
  • Kolaborasi: Peneliti, pembuat kebijakan, dan pemimpin industri harus berkolaborasi untuk mengembangkan pedoman etika dan praktik terbaik untuk pengembangan AI.
  • Keberagaman Data: Pelatihan AI harus memprioritaskan keberagaman data untuk mengurangi bias dan meningkatkan kinerja keseluruhan model AI.
  • Keberlanjutan: Pelatihan AI harus dilakukan secara berkelanjutan, meminimalkan dampak lingkungannya.
  • Keamanan: Tindakan keamanan harus melindungi model AI dan data pelatihan dari akses dan penggunaan yang tidak sah.

Dengan mengatasi pertimbangan utama ini, industri AI dapat memastikan bahwa pengembangan AI dilakukan secara bertanggung jawab dan etis, mempromosikan inovasi sambil mengurangi potensi risiko.

Jalan ke Depan

Tuduhan yang dilayangkan terhadap DeepSeek berfungsi sebagai panggilan bangun untuk komunitas AI. Mereka menggarisbawahi kebutuhan penting akan transparansi yang lebih besar, perilaku etis, dan perlindungan yang kuat dalam pengembangan AI. Karena AI terus merasuki berbagai aspek kehidupan kita, penting bagi kita untuk menetapkan batasan yang jelas dan pedoman etika untuk memastikan penggunaan yang bertanggung jawab dan bermanfaat.

Kasus DeepSeek, terlepas dari hasil akhirnya, pasti akan membentuk wacana yang sedang berlangsung seputar etika AI dan memengaruhi lintasan masa depan pengembangan AI. Ini berfungsi sebagai pengingat bahwa pengejaran inovasi harus diimbangi dengan komitmen terhadap prinsip-prinsip etika dan pengakuan akan potensi konsekuensi dari tindakan kita. Masa depan AI bergantung pada kemampuan kita untuk menavigasi tantangan kompleks ini dengan kebijaksanaan dan pandangan ke depan.