Model AI DeepSeek: Latihan Gemini Google?

Dunia kecerdasan buatan (AI) tidak asing dengan kontroversi, dan perkembangan terkini melibatkan makmal AI China, DeepSeek. Baru-baru ini, DeepSeek memperkenalkan versi terkini model penaakulan R1 mereka, yang mempamerkan keupayaan yang mengagumkan dalam menangani penanda aras matematik dan pengekodan. Walau bagaimanapun, sumber data yang digunakan untuk melatih model ini telah mencetuskan perdebatan yang besar di kalangan penyelidik AI, dengan beberapa pihak membuat spekulasi bahawa ia mungkin berasal, sekurang-kurangnya sebahagiannya, daripada keluarga model AI Gemini Google. Syak wasangka ini menimbulkan soalan penting tentang amalan etika, sumber data, dan landskap persaingan dalam industri AI.

Bukti yang Dibentangkan

Kontroversi bermula apabila Sam Paech, seorang pembangun yang berpangkalan di Melbourne yang pakar dalam mencipta penilaian “kecerdasan emosi” untuk sistem AI, membentangkan apa yang didakwanya sebagai bukti bahawa model terkini DeepSeek telah dilatih dengan output yang dihasilkan oleh Gemini. Menurut Paech, model DeepSeek, yang dikenal pasti sebagai R1-0528, mempamerkan keutamaan untuk perkataan dan ungkapan tertentu yang sangat serupa dengan yang digemari oleh Gemini 2.5 Pro Google. Walaupun pemerhatian ini sahaja mungkin tidak konklusif, ia menimbulkan bendera merah dan memerlukan siasatan lanjut.

Menambah kepada intrik, seorang lagi pembangun, yang beroperasi di bawah nama samaran SpeechMap dan dikenali kerana mencipta “eval ucapan bebas” untuk AI, menunjukkan bahawa jejak model DeepSeek – “fikiran” yang dihasilkannya semasa ia berfungsi ke arah kesimpulan – “berbunyi seperti jejak Gemini.” Pertemuan corak linguistik dan proses pemikiran ini seterusnya menyemarakkan syak wasangka bahawa DeepSeek mungkin telah menggunakan output Gemini semasa proses latihan.

Tuduhan Lalu Terhadap DeepSeek

Ini bukan kali pertama DeepSeek menghadapi tuduhan melatih model AI mereka dengan data daripada sistem AI pesaing. Pada bulan Disember lalu, pembangun menyedari bahawa model V3 DeepSeek sering mengenal pasti dirinya sebagai ChatGPT, platform chatbot berkuasa AI OpenAI. Tingkah laku aneh ini mencadangkan bahawa model tersebut mungkin telah dilatih dengan log sembang ChatGPT, menimbulkan kebimbangan tentang implikasi etika amalan sedemikian.

Awal tahun ini, OpenAI memaklumkan Financial Times bahawa ia telah menemui bukti yang mengaitkan DeepSeek dengan penggunaan penyulingan, teknik yang melibatkan latihan model AI dengan mengekstrak data daripada model yang lebih besar dan lebih berkebolehan. Tambahan pula, Microsoft, kolaborator utama dan pelabur dalam OpenAI, mengesan sejumlah besar data yang disalurkan keluar melalui akaun pembangun OpenAI pada akhir tahun 2024. OpenAI percaya bahawa akaun ini bergabung dengan DeepSeek, seterusnya mengukuhkan syak wasangka terhadap pengekstrakan data tanpa kebenaran.

Walaupun penyulingan tidak semestinya tidak beretika, syarat perkhidmatan OpenAI secara jelas melarang pelanggan menggunakan output model syarikat untuk membina sistem AI yang bersaing. Sekatan ini bertujuan untuk melindungi harta intelek OpenAI dan mengekalkan persekitaran persaingan yang adil dalam industri AI. Jika DeepSeek sememangnya menggunakan penyulingan untuk melatih model R1 mereka pada output Gemini, ia akan menjadi pelanggaran syarat perkhidmatan OpenAI dan menimbulkan kebimbangan etika yang serius.

Cabaran Pencemaran Data

Adalah penting untuk mengakui bahawa banyak model AI menunjukkan kecenderungan untuk salah mengenal pasti diri mereka sendiri dan berkumpul pada perkataan dan frasa yang serupa. Fenomena ini boleh dikaitkan dengan peningkatan kehadiran kandungan yang dijana AI di web terbuka, yang berfungsi sebagai sumber utama data latihan untuk syarikat AI. Ladang kandungan menggunakan AI untuk mencipta artikel clickbait, dan bot membanjiri platform seperti Reddit dan X dengan catatan yang dijana AI.

“Pencemaran” web dengan kandungan yang dijana AI ini menimbulkan cabaran yang ketara kepada syarikat AI, menjadikannya sangat sukar untuk menapis output AI secara menyeluruh daripada set data latihan. Akibatnya, model AI mungkin secara tidak sengaja belajar antara satu sama lain, yang membawa kepada persamaan yang diperhatikan dalam bahasa dan proses pemikiran.

Pendapat dan Perspektif Pakar

Walaupun menghadapi cabaran pencemaran data, pakar AI seperti Nathan Lambert, seorang penyelidik di institut penyelidikan AI bukan untung AI2, percaya bahawa ia tidak mustahil bahawa DeepSeek dilatih dengan data daripada Gemini Google. Lambert mencadangkan bahawa DeepSeek, menghadapi kekurangan GPU tetapi memiliki sumber kewangan yang mencukupi, mungkin telah memilih untuk menjana data sintetik daripada model API terbaik yang tersedia. Pada pandangannya, pendekatan ini boleh menjadi lebih cekap dari segi pengiraan untuk DeepSeek.

Perspektif Lambert menyerlahkan pertimbangan praktikal yang mungkin mendorong syarikat AI untuk meneroka strategi sumber data alternatif. Walaupun penggunaan data sintetik boleh menjadi teknik yang sah dan berkesan, adalah penting untuk memastikan bahawa data dijana secara beretika dan tidak melanggar mana-mana syarat perkhidmatan atau garis panduan etika.

Langkah Keselamatan dan Usaha Pencegahan

Sebagai tindak balas kepada kebimbangan mengenai penyulingan dan pencemaran data, syarikat AI telah meningkatkan langkah keselamatan mereka. OpenAI, sebagai contoh, telah melaksanakan keperluan untuk organisasi untuk menyelesaikan proses pengesahan ID untuk mengakses model lanjutan tertentu. Proses ini memerlukan ID yang dikeluarkan kerajaan daripada salah satu negara yang disokong oleh API OpenAI, tidak termasuk China daripada senarai.

Google juga telah mengambil langkah untuk mengurangkan risiko penyulingan dengan “meringkaskan” jejak yang dihasilkan oleh model yang tersedia melalui platform pembangun AI Studionya. Proses ringkasan ini menjadikannya lebih mencabar untuk melatih model pesaing yang berprestasi pada jejak Gemini. Begitu juga, Anthropic mengumumkan pada bulan Mei bahawa ia akan mula meringkaskan jejak modelnya sendiri, memetik keperluan untuk melindungi “kelebihan daya saing.”

Langkah keselamatan ini mewakili usaha bersepadu oleh syarikat AI untuk melindungi harta intelek mereka dan mencegah pengekstrakan data tanpa kebenaran. Dengan melaksanakan kawalan akses yang lebih ketat dan mengaburkan jejak model, mereka bertujuan untuk menghalang amalan tidak beretika dan mengekalkan padang permainan yang sama dalam industri AI.

Respons Google

Apabila dihubungi untuk komen, Google masih belum memberikan respons kepada dakwaan tersebut. Kesunyian ini memberi ruang untuk spekulasi dan seterusnya menggiatkan kontroversi. Sementara komuniti AI menunggu kenyataan rasmi daripada Google, soalan mengenai amalan sumber data DeepSeek terus berlegar.

Implikasi untuk Industri AI

Kontroversi DeepSeek menimbulkan soalan asas tentang sempadan etika pembangunan AI dan kepentingan sumber data yang bertanggungjawab. Apabila model AI menjadi semakin canggih dan berkebolehan, godaan untuk memotong sudut dan menggunakan data tanpa kebenaran mungkin menjadi lebih kuat. Walau bagaimanapun, amalan sedemikian boleh membawa akibat buruk, menjejaskan integriti industri AI dan menghakis kepercayaan awam.

Untuk memastikan kemampanan jangka panjang dan pembangunan etika AI, adalah penting bahawa syarikat AI mematuhi garis panduan etika yang ketat dan mengutamakan amalan sumber data yang bertanggungjawab. Ini termasuk mendapatkan persetujuan yang jelas daripada penyedia data, menghormati hak harta intelek, dan mengelakkan penggunaan data yang tidak dibenarkan atau berat sebelah.

Tambahan pula, ketelusan dan akauntabiliti yang lebih besar diperlukan dalam industri AI. Syarikat AI harus lebih berterus terang tentang amalan sumber data mereka dan kaedah yang digunakan untuk melatih model mereka. Peningkatan ketelusan ini akan membantu memupuk kepercayaan dan keyakinan dalam sistem AI dan menggalakkan ekosistem AI yang lebih beretika dan bertanggungjawab.

Kontroversi DeepSeek berfungsi sebagai peringatan tepat pada masanya tentang cabaran dan pertimbangan etika yang mesti ditangani apabila teknologi AI terus maju. Dengan menegakkan prinsip etika, menggalakkan ketelusan, dan memupuk kerjasama, komuniti AI boleh memastikan bahawa AI digunakan untuk manfaat masyarakat dan bukan dengan mengorbankan nilai etika.

Mendalami Aspek Teknikal

Untuk memahami dengan lebih lanjut nuansa isu ini, adalah penting untuk menyelidiki aspek teknikal tentang cara model AI dilatih dan teknik khusus yang dipersoalkan, iaitu penyulingan dan penjanaan data sintetik.

Penyulingan: Mengklon Kepintaran?

Penyulingan, dalam konteks AI, merujuk kepada teknik mampatan model di mana model “pelajar” yang lebih kecil dan lebih cekap dilatih untuk meniru tingkah laku model “guru” yang lebih besar dan lebih kompleks. Model pelajar belajar dengan memerhatikan output model guru, dengan berkesan mengekstrak pengetahuan dan memindahkannya ke seni bina yang lebih kecil. Walaupun penyulingan boleh memberi manfaat untuk menggunakan model AI pada peranti yang terhad sumber, ia menimbulkan kebimbangan etika apabila data atau seni bina model guru adalah proprietari.

Jika DeepSeek menggunakan output Gemini untuk melatih model R1 mereka melalui penyulingan tanpa kebenaran, ia sama dengan mengklon kepintaran Gemini dan berpotensi melanggar hak harta intelek Google. Kuncinya di sini ialah penggunaan output Gemini yang tidak dibenarkan, yang dilindungi oleh hak cipta dan mekanisme perundangan lain.

Penjanaan Data Sintetik: Pedang Bermata Dua

Penjanaan data sintetik melibatkan penciptaan titik data buatan yang menyerupai data dunia sebenar. Teknik ini sering digunakan untuk menambah set data latihan, terutamanya apabila data sebenar adalah terhad atau mahal untuk diperoleh. Walau bagaimanapun, kualiti dan implikasi etika data sintetik sangat bergantung pada cara ia dijana.

Jika DeepSeek menggunakan API Gemini untuk menjana data sintetik, persoalannya menjadi: sejauh manakah data ini menyerupai output Gemini yang sebenar, dan adakah ia melanggar harta intelek Google? Jika data sintetik hanya diilhamkan oleh Gemini tetapi tidak secara langsung meniru outputnya, ia mungkin dianggap sebagai penggunaan wajar. Walau bagaimanapun, jika data sintetik hampir tidak dapat dibezakan daripada output Gemini, ia boleh menimbulkan kebimbangan yang sama seperti penyulingan.

Implikasi Model Overfitting

Kebimbangan lain yang berkaitan ialah overfitting model. Overfitting berlaku apabila model mempelajari data latihan dengan terlalu baik, sehingga ia berprestasi buruk pada data baharu yang tidak dilihat. Jika DeepSeek melatih model R1 mereka secara berlebihan pada output Gemini, ia boleh menyebabkan overfitting, di mana model itu pada dasarnya menghafal respons Gemini dan bukannya membuat generalisasi kepada situasi baharu.

Overfitting jenis ini bukan sahaja akan mengehadkan kebolehgunaan model R1 tetapi juga menjadikannya lebih mudah untuk mengesan pergantungannya pada data Gemini. “Jejak” yang diperhatikan oleh SpeechMap boleh menjadi bukti overfitting ini, di mana model R1 pada dasarnya mengulangi corak yang dipelajari daripada output Gemini.

Pertimbangan Etika dan Amalan Terbaik Industri

Di luar aspek teknikal, kontroversi ini menyerlahkan keperluan untuk garis panduan etika yang jelas dan amalan terbaik industri untuk pembangunan AI. Beberapa prinsip utama termasuk:

  • Ketelusan: Syarikat AI harus telus tentang sumber data dan metodologi latihan mereka. Ini membolehkan pengauditan dan pengesahan bebas.
  • Persetujuan: Syarikat AI harus mendapatkan persetujuan yang jelas daripada penyedia data sebelum menggunakan data mereka untuk latihan. Ini termasuk menghormati hak harta intelek dan mengelakkan pengikisan data tanpa kebenaran.
  • Keadilan: Model AI harus adil dan tidak berat sebelah. Ini memerlukan perhatian yang teliti terhadap kepelbagaian data dan pengurangan berat sebelah algoritma.
  • Akauntabiliti: Syarikat AI harus bertanggungjawab terhadap tindakan model AI mereka. Ini termasuk mewujudkan rangka kerja tanggungjawab yang jelas dan menangani bahaya yang disebabkan oleh sistem AI.
  • Keselamatan: Syarikat AI harus mengutamakan keselamatan model dan data AI mereka. Ini termasuk melindungi daripada akses tanpa kebenaran dan mencegah pelanggaran data.

Peranan Peraturan

Selain garis panduan etika dan amalan terbaik industri, peraturan mungkin diperlukan untuk menangani cabaran yang ditimbulkan oleh pembangunan AI. Beberapa langkah kawal selia yang berpotensi termasuk:

  • Undang-undang privasi data: Undang-undang yang melindungi data individu dan menyekat использование maklumat peribadi untuk latihan AI.
  • Undang-undang harta intelek: Undang-undang yang melindungi model dan data AI daripada penyalinan dan pengedaran tanpa kebenaran.
  • Undang-undang persaingan: Undang-undang yang menghalang tingkah laku anti-persaingan dalam industri AI, seperti penimbunan data dan akses yang tidak adil kepada sumber.
  • Peraturan keselamatan: Peraturan yang memastikan keselamatan dan kebolehpercayaan sistem AI yang digunakan dalam aplikasi kritikal.

Dengan menggabungkan garis panduan etika, amalan terbaik industri, dan peraturan yang sesuai, kita boleh mencipta ekosistem AI yang lebih bertanggungjawab dan mampan yang memberi manfaat kepada masyarakat secara keseluruhan. Kontroversi DeepSeek berfungsi sebagai panggilan bangun, menggesa kita untuk menangani cabaran ini secara proaktif dan memastikan bahawa AI dibangunkan dengan cara yang selaras dengan nilai dan prinsip kita.