Kemajuan AI DeepSeek Picu Perdebatan: Peran Gemini Google?

Dunia AI sedang ramai dengan spekulasi setelah rilis terbaru dari model penalaran R1 DeepSeek yang ditingkatkan. Lab AI Tiongkok ini telah meluncurkan model yang menunjukkan kemampuan mengesankan dalam tolok ukur matematika dan pengkodean. Namun, asal usul data yang digunakan untuk melatih model ini telah menjadi titik fokus diskusi, dengan beberapa peneliti AI menyarankan kemungkinan hubungan dengan keluarga Google Gemini AI.

Model R1 DeepSeek: Tinjauan Lebih Dekat

Model penalaran R1 DeepSeek telah mendapatkan perhatian karena kinerjanya di bidang-bidang seperti pemecahan masalah matematika dan tugas pengkodean. Keengganan perusahaan untuk mengungkapkan sumber data spesifik yang digunakan dalam pelatihan model telah memicu spekulasi di dalam komunitas riset AI.

Tuduhan Pengaruh Gemini

Inti dari perdebatan berkisar pada kemungkinan bahwa DeepSeek memanfaatkan keluaran dari Google Gemini untuk meningkatkan modelnya sendiri. Sam Paech, seorang pengembang AI yang berspesialisasi dalam evaluasi “kecerdasan emosional”, menyajikan bukti yang menunjukkan bahwa model R1-0528 DeepSeek menunjukkan preferensi untuk bahasa dan ekspresi yang mirip dengan yang disukai oleh Google Gemini 2.5 Pro. Meskipun observasi ini saja tidak merupakan bukti definitif, hal itu telah berkontribusi pada diskusi yang sedang berlangsung.

Menambahkan lapisan lain ke diskusi, pembuat anonim “SpeechMap,” sebuah alat evaluasi AI yang berfokus pada kebebasan berbicara, mencatat bahwa “pikiran” yang dihasilkan oleh model DeepSeek – proses penalaran internal yang digunakannya untuk sampai pada kesimpulan – memiliki kemiripan dengan pola jejak Gemini. Ini semakin mengintensifkan pertanyaan tentang apakah DeepSeek menggunakan data dari keluarga Google Gemini.

Tuduhan Sebelumnya dan Kekhawatiran OpenAI

Ini bukan pertama kalinya DeepSeek menghadapi tuduhan memanfaatkan data dari model AI pesaing. Pada bulan Desember, diamati bahwa model V3 DeepSeek sering mengidentifikasi dirinya sebagai ChatGPT, chatbot AI yang banyak digunakan milik OpenAI. Ini menyebabkan kecurigaan bahwa model tersebut mungkin telah dilatih pada log obrolan ChatGPT.

Lebih jauh lagi, OpenAI dilaporkan menemukan bukti awal tahun ini yang menghubungkan DeepSeek dengan penggunaan distilasi, sebuah teknik yang melibatkan ekstraksi data dari model AI yang lebih besar dan lebih kuat untuk melatih model yang lebih kecil. Menurut laporan, Microsoft, kolaborator utama dan investor di OpenAI, mendeteksi sejumlah besar data yang diekstraksi melalui akun pengembang OpenAI pada akhir tahun 2024. OpenAI percaya bahwa akun-akun ini terkait dengan DeepSeek.

Meskipun distilasi adalah praktik umum di dunia AI, persyaratan layanan OpenAI secara eksplisit melarang pengguna menggunakan keluaran model perusahaan untuk membuat sistem AI pesaing. Ini menimbulkan kekhawatiran tentang potensi pelanggaran kebijakan OpenAI.

Tantangan “Kontaminasi” AI

Penting untuk mempertimbangkan bahwa model AI, selama pelatihan, dapat menyatu pada kosakata dan ungkapan yang serupa. Ini terutama karena web terbuka, sumber utama data pelatihan untuk perusahaan AI, semakin jenuh dengan konten yang dihasilkan oleh AI. Pertanian konten menggunakan AI untuk menghasilkan artikel clickbait, dan bot membanjiri platform seperti Reddit dan X dengan postingan yang dihasilkan oleh AI.

“Kontaminasi” lanskap data ini membuat sulit untuk secara efektif menyaring konten yang dihasilkan oleh AI dari dataset pelatihan. Akibatnya, memastikan apakah keluaran model benar-benar berasal dari data model lain atau hanya mencerminkan kehadiran konten yang dihasilkan oleh AI di web dapat menjadi sulit.

Perspektif Pakar tentang Masalah Ini

Meskipun ada tantangan dalam membuktikan hubungan tersebut secara pasti, para ahli AI seperti Nathan Lambert, seorang peneliti di lembaga riset AI AI2, percaya bahwa kemungkinan DeepSeek berlatih pada data dari Google Gemini masuk akal. Lambert menyarankan bahwa DeepSeek, yang menghadapi kendala dalam ketersediaan GPU tetapi memiliki sumber daya keuangan yang cukup besar, mungkin merasa lebih efisien untuk memanfaatkan data sintetis yang dihasilkan oleh model API terbaik yang tersedia.

Perusahaan AI Meningkatkan Langkah-Langkah Keamanan

Kekhawatiran tentang distilasi dan penggunaan data yang tidak sah mendorong perusahaan AI untuk memperkuat langkah-langkah keamanan mereka. OpenAI, misalnya, sekarang mengharuskan organisasi untuk menyelesaikan proses verifikasi ID untuk mengakses model-model canggih tertentu. Proses ini memerlukan ID yang dikeluarkan pemerintah dari negara yang didukung oleh API OpenAI, tidak termasuk Tiongkok.

Google juga telah mengambil langkah-langkah untuk mengurangi potensi distilasi. Mereka baru-baru ini mulai “merangkum” jejak yang dihasilkan oleh model yang tersedia melalui platform pengembang AI Studio-nya. Ini membuat lebih sulit untuk melatih model pesaing dengan mengekstraksi informasi terperinci dari jejak Gemini. Demikian pula, Anthropic mengumumkan rencana untuk merangkum jejak modelnya sendiri, dengan alasan perlunya melindungi “keunggulan kompetitifnya.”

Implikasi untuk Lanskap AI

Kontroversi seputar DeepSeek dan potensi penggunaan data Google Gemini menyoroti beberapa masalah penting dalam lanskap AI:

  • Etika data dan pengembangan AI yang bertanggung jawab: Saat model AI menjadi semakin canggih, pertimbangan etis seputar sumber dan penggunaan data menjadi yang terpenting. Perusahaan AI perlu memastikan bahwa mereka mematuhi pedoman etika dan menghormati hak kekayaan intelektual orang lain.
  • Dampak konten yang dihasilkan oleh AI: Proliferasi konten yang dihasilkan oleh AI di web menimbulkan tantangan untuk pelatihan AI. Saat data menjadi semakin “terkontaminasi,” menjadi lebih sulit untuk memastikan kualitas dan integritas model AI.
  • Kebutuhan akan transparansi dan akuntabilitas: Perusahaan AI harus transparan tentang sumber data dan metode pelatihan mereka. Ini akan membantu membangun kepercayaan dan memastikan bahwa AI dikembangkan dan digunakan secara bertanggung jawab.
  • Pentingnya langkah-langkah keamanan yang kuat: Saat industri AI menjadi lebih kompetitif, perusahaan AI perlu menerapkan langkah-langkah keamanan yang kuat untuk mencegah akses tidak sah ke data dan model mereka.

Masa Depan Pengembangan AI

Kontroversi DeepSeek berfungsi sebagai pengingat akan tantangan etika dan teknis kompleks yang dihadapi industri AI. Saat AI terus berkembang, sangat penting bahwa perusahaan AI, peneliti, dan pembuat kebijakan bekerja sama untuk memastikan bahwa AI dikembangkan dan digunakan dengan cara yang menguntungkan masyarakat. Ini termasuk mempromosikan transparansi, akuntabilitas, dan praktik data etis.

Perdebatan yang Berlangsung: Tuduhan terhadap DeepSeek menggarisbawahi meningkatnya kekhawatiran seputar privasi data, keamanan, dan pengembangan AI yang etis. Kurangnya transparansi dalam sumber data dan garis yang semakin kabur antara pengumpulan data yang sah dan pengambilan data yang tidak sah menuntut peraturan yang jelas dan praktik yang bertanggung jawab di dalam komunitas AI. Seiring dengan kemajuan teknologi, industri harus bergulat dengan masalah-masalah seperti hak kekayaan intelektual, risiko “kontaminasi AI,” dan potensi konsekuensi yang tidak diinginkan.

Etika Data Pelatihan AI: Kontroversi seputar DeepSeek juga menyoroti pertimbangan etis yang muncul saat mengumpulkan data pelatihan untuk model AI. Dengan meningkatnya ketergantungan pada dataset besar yang diambil dari internet, pertanyaan-pertanyaan seperti siapa yang memiliki data, bagaimana persetujuan diperoleh (atau diabaikan), dan apakah data digunakan secara adil dan bertanggung jawab menjadi semakin mendesak. Komunitas AI harus menetapkan pedoman yang jelas untuk sumber data yang menghormati undang-undang hak cipta, melindungi informasi pribadi, dan mengurangi bias.

Perlombaan untuk Dominasi AI: Tuduhan terhadap DeepSeek juga dapat ditafsirkan sebagai cerminan dari perlombaan sengit untuk dominasi AI antara Amerika Serikat dan Tiongkok. Kedua negara menggelontorkan miliaran dolar ke dalam riset dan pengembangan AI, dan tekanan untuk mencapai terobosan memicu persaingan dan berpotensi memotong jalan pintas. Jika DeepSeek memang menggunakan data OpenAI atau Google tanpa izin, itu dapat ditafsirkan sebagai contoh taktik agresif dan pencurian kekayaan intelektual yang telah lama menghantui hubungan teknologi AS-Tiongkok.

Implikasi yang Lebih Luas untuk Ekosistem AI: Sementara fokusnya saat ini adalah pada DeepSeek, kasus ini dapat memiliki implikasi yang lebih luas untuk seluruh ekosistem AI. Jika terbukti bahwa DeepSeek telah menggunakan data dari ChatGPT atau Gemini secara tidak sah, hal itu dapat mendorong perusahaan lain untuk secara ketat mengaudit praktik sumber data mereka sendiri, yang berpotensi memperlambat laju pengembangan dan meningkatkan biaya. Hal itu juga dapat menyebabkan peraturan yang lebih ketat seputar pengumpulan dan penggunaan data, tidak hanya di AS dan Tiongkok, tetapi secara global.

Dampak Data yang Dihasilkan Secara Sintetis: Munculnya data sintetis, yang diusulkan oleh Lambert, sebagai alternatif yang layak untuk melatih model menimbulkan pertanyaan mendasar tentang masa depan pengembangan AI. Sementara dataset sintetis melewati beberapa masalah etika dan hak cipta yang terkait dengan data dunia nyata, kinerja dan ketahanan model yang dilatih pada data sintetis sering gagal untuk menandingi yang dilatih pada data asli. Komunitas AI perlu menemukan pendekatan inovatif untuk menghasilkan dataset sintetis canggih yang memenuhi kebutuhan industri tanpa mengorbankan akurasi dan keandalan.

Ringkasan Model sebagai Bentuk Tata Kelola Data: Keputusan terbaru Google dan Anthropic untuk mulai “merangkum” jejak yang dihasilkan oleh model mereka menunjukkan meningkatnya pentingnya tata kelola data dalam industri AI. Dengan mengaburkan informasi rinci dalam proses pengambilan keputusan model, perusahaan membuat lebih sulit bagi orang lain untuk merekayasa balik teknologi mereka. Pendekatan ini dapat membantu melindungi rahasia dagang dan menegakkan praktik sumber data etis, tetapi juga menimbulkan pertanyaan tentang transparansi dan kemampuan untuk dijelaskan dari sistem AI.

Menyeimbangkan Inovasi dengan Pertimbangan Etika dan Hukum: Kontroversi DeepSeek menggarisbawahi perlunya menemukan keseimbangan yang cermat antara mendorong inovasi AI dan melindungi hak kekayaan intelektual dan memastikan kepatuhan terhadap prinsip-prinsip etika. Saat model AI terus tumbuh dalam kecanggihan dan kompleksitas, tantangan etika dan hukum yang dihadapi industri hanya akan menjadi lebih besar. Menemukan keseimbangan yang tepat antara kekhawatiran ini akan sangat penting untuk mendorong pengembangan AI yang bertanggung jawab dan berkelanjutan.