Latihan AI DeepSeek Dibawah Penelitian: Gemini Terlibat?

Baru-baru ini, spekulasi telah timbul yang mencadangkan bahawa DeepSeek, sebuah makmal AI Cina, mungkin telah menggunakan data daripada model AI Gemini Google untuk melatih iterasi terbarunya, model AI R1. Model ini telah menunjukkan prestasi yang kukuh dalam penanda aras matematik dan pengekodan. Walaupun DeepSeek tetap berdiam diri mengenai sumber data yang digunakan untuk melatih R1, beberapa penyelidik AI telah mencadangkan bahawa Gemini, atau sekurang-kurangnya bahagian daripada Gemini, memainkan peranan.

Bukti dan Tuduhan

Sam Paech, seorang pembangun yang berpangkalan di Melbourne yang pakar dalam mencipta penilaian "kecerdasan emosi" untuk AI, telah membentangkan apa yang dipercayainya sebagai bukti bahawa model DeepSeek dilatih menggunakan output yang dihasilkan oleh Gemini. Paech menyatakan dalam catatan di X (dahulunya Twitter) bahawa model DeepSeek, khususnya versi R1-0528, mempamerkan keutamaan untuk bahasa dan ungkapan yang serupa dengan yang digemari oleh Gemini 2.5 Pro Google.

Tambahan pula, seorang lagi pembangun, yang beroperasi di bawah nama samaran pencipta SpeechMap, sebuah "eval ucapan percuma" untuk AI, telah memerhatikan bahawa "pemikiran" yang dihasilkan oleh model DeepSeek ketika ia berusaha ke arah kesimpulan sangat menyerupai jejak Gemini. Pemerhatian ini menambah lapisan intrik lain pada tuntutan itu.

Ini bukan kali pertama DeepSeek menghadapi dakwaan memanfaatkan data daripada model AI pesaing. Pada bulan Disember lalu, pembangun menyedari bahawa model V3 DeepSeek sering mengenal pasti dirinya sebagai ChatGPT, platform chatbot popular OpenAI. Ini mencadangkan bahawa model itu telah dilatih pada log sembang ChatGPT, menimbulkan kebimbangan mengenai amalan penggunaan data.

Tuduhan Lebih Mendalam: Penyulingan dan Perlombongan Data

Awal tahun ini, OpenAI berkongsi dengan Financial Times bahawa mereka telah menemui bukti yang mengaitkan DeepSeek dengan penggunaan teknik yang dipanggil penyulingan. Penyulingan melibatkan latihan model AI dengan mengekstrak data daripada model yang lebih besar dan lebih canggih. Bloomberg melaporkan bahawa Microsoft, seorang kolaborator utama dan pelabur dalam OpenAI, telah mengesan perlombongan data yang ketara melalui akaun pembangun OpenAI pada akhir tahun 2024. OpenAI percaya akaun ini disambungkan ke DeepSeek.

Penyulingan, walaupun tidak semestinya tidak beretika, menjadi bermasalah apabila ia melanggar syarat perkhidmatan. Syarat OpenAI secara jelas melarang pelanggan daripada menggunakan output model syarikat untuk membangunkan sistem AI yang bersaing. Ini menimbulkan persoalan serius mengenai pematuhan DeepSeek terhadap syarat-syarat ini.

Perairan Keruh Data Latihan AI

Adalah penting untuk mengakui bahawa model AI sering salah mengenal pasti diri mereka sendiri dan menumpu pada perkataan dan frasa yang serupa. Ini disebabkan oleh sifat web terbuka, yang berfungsi sebagai sumber utama data latihan bagi banyak syarikat AI. Web semakin tepu dengan kandungan yang dijana AI. Ladang kandungan menggunakan AI untuk menghasilkan clickbait, dan bot membanjiri platform seperti Reddit dan X dengan catatan yang dijana AI.

"Pencemaran" ini menjadikannya sangat mencabar untuk menapis output AI daripada set data latihan dengan berkesan, seterusnya merumitkan persoalan sama ada DeepSeek dengan sengaja menggunakan data Gemini.

Pendapat dan Perspektif Pakar

Walaupun terdapat cabaran dalam membuktikan tuntutan itu secara pasti, beberapa pakar AI percaya adalah munasabah bahawa DeepSeek dilatih pada data daripada Gemini Google. Nathan Lambert, seorang penyelidik di institut penyelidikan AI bukan untung AI2, menyatakan di X, "Jika saya DeepSeek, saya pasti akan mencipta banyak data sintetik daripada model API terbaik di luar sana. [DeepSeek] kekurangan GPU dan mempunyai banyak wang tunai. Ia secara literal lebih banyak pengkomputeran untuk mereka."

Perspektif Lambert menekankan insentif ekonomi yang berpotensi bagi DeepSeek untuk memanfaatkan model AI sedia ada untuk meningkatkan keupayaannya sendiri, terutamanya memandangkan kekangan sumbernya.

Langkah Keselamatan dan Tindakan Balas

Syarikat AI telah meningkatkan langkah keselamatan, sebahagiannya untuk mencegah amalan seperti penyulingan. OpenAI, pada bulan April, mula menghendaki organisasi melengkapkan proses pengesahan ID untuk mengakses model lanjutan tertentu. Proses ini melibatkan penyerahan ID yang dikeluarkan kerajaan dari negara yang disokong oleh API OpenAI. China ketara tidak termasuk dalam senarai ini.

Dalam langkah lain, Google baru-baru ini mula "meringkaskan" jejak yang dihasilkan oleh model yang tersedia melalui platform pembangun AI Studio. Tindakan ini menjadikannya lebih sukar untuk melatih model saingan mengenai jejak Gemini dengan berkesan. Begitu juga, Anthropic mengumumkan pada bulan Mei bahawa ia akan mula meringkaskan jejak modelnya sendiri, dengan menyatakan keperluan untuk melindungi "kelebihan daya saing". Langkah-langkah ini menunjukkan kesedaran yang semakin meningkat tentang potensi penyalahgunaan output model AI dan usaha proaktif untuk mengurangkan risiko tersebut.

Implikasi dan Akibat

Dakwaan terhadap DeepSeek menimbulkan persoalan penting mengenai etika dan kesahihan amalan latihan AI. Jika DeepSeek sememangnya menggunakan data Gemini untuk melatih model R1nya, ia boleh menghadapi kesan undang-undang dan kerosakan reputasi. Keadaan ini juga menekankan keperluan untuk ketelusan dan peraturan yang lebih besar dalam industri AI, terutamanya mengenai sumber dan penggunaan data.

Tuduhan terhadap DeepSeek menggariskan dilema kritikal: bagaimana untuk mengimbangi keinginan untuk inovasi dan kemajuan dalam AI dengan keperluan untuk melindungi harta intelek dan memastikan persaingan yang adil. Industri AI berkembang pesat, dan garis panduan yang jelas serta rangka kerja etika adalah penting untuk menavigasi landskap undang-undang dan etika yang kompleks. Syarikat mesti telus mengenai sumber data mereka dan mematuhi perjanjian syarat perkhidmatan untuk mengekalkan kepercayaan dan mengelakkan potensi liabiliti undang-undang.

Tambahan pula, isu kandungan yang dijana AI yang mencemari set data latihan menimbulkan cabaran besar bagi seluruh komuniti AI. Apabila model AI menjadi lebih mahir dalam menjana teks, imej dan bentuk kandungan lain yang meyakinkan, semakin sukar untuk membezakan antara data yang dijana manusia dan data yang dijana AI. "Pencemaran" ini boleh membawa kepada penghomogenan model AI, di mana mereka semua mula menunjukkan kecenderungan dan batasan yang serupa.

Untuk menangani cabaran ini, syarikat AI perlu melabur dalam teknik penapisan data yang lebih canggih dan meneroka sumber data latihan alternatif. Mereka juga perlu lebih telus mengenai komposisi set data latihan mereka dan kaedah yang digunakan untuk menapis kandungan yang dijana AI.

Menavigasi Masa Depan Latihan AI

Kontroversi DeepSeek menggariskan keperluan mendesak untuk perbincangan yang lebih bernuansa tentang masa depan latihan AI. Apabila model AI menjadi lebih berkuasa dan data menjadi lebih terhad, syarikat mungkin tergoda untuk mengambil jalan pintas dan terlibat dalam amalan yang tidak beretika atau menyalahi undang-undang. Walau bagaimanapun, amalan sedemikian akhirnya menjejaskan kemampanan jangka panjang dan kebolehpercayaan industri AI.

Usaha kolaboratif yang melibatkan penyelidik, penggubal dasar dan pemimpin industri diperlukan untuk membangunkan garis panduan etika dan rangka kerja undang-undang yang menggalakkan pembangunan AI yang bertanggungjawab. Garis panduan ini harus menangani isu seperti sumber data, ketelusan dan akauntabiliti. Mereka juga harus memberi insentif kepada syarikat untuk melabur dalam amalan latihan AI yang beretika dan mampan.

Pertimbangan utama untuk masa depan latihan AI:

  • Ketelusan: Syarikat harus telus mengenai sumber data yang digunakan untuk melatih model AI mereka dan kaedah yang digunakan untuk menapis kandungan yang dijana AI.
  • Etika: Pembangunan AI harus mematuhi prinsip etika yang menggalakkan keadilan, akauntabiliti dan penghormatan terhadap harta intelek.
  • Peraturan: Penggubal dasar harus mewujudkan rangka kerja undang-undang yang jelas yang menangani cabaran unik yang ditimbulkan oleh latihan AI.
  • Kerjasama: Penyelidik, penggubal dasar dan pemimpin industri harus bekerjasama untuk membangunkan garis panduan etika dan amalan terbaik untuk pembangunan AI.
  • Kepelbagaian Data: Latihan AI harus mengutamakan kepelbagaian data untuk mengurangkan berat sebelah dan meningkatkan prestasi keseluruhan model AI.
  • Kemampanan: Latihan AI harus dijalankan secara mampan, meminimumkan kesan alam sekitar.
  • Keselamatan: Langkah keselamatan harus melindungi model AI dan data latihan daripada akses dan penggunaan yang tidak sah.

Dengan menangani pertimbangan utama ini, industri AI boleh memastikan bahawa pembangunan AI dijalankan secara bertanggungjawab dan beretika, menggalakkan inovasi sambil mengurangkan potensi risiko.

Hala Tuju Masa Depan

Tuduhan yang ditujukan terhadap DeepSeek berfungsi sebagai amaran kepada komuniti AI. Mereka menggariskan keperluan penting untuk ketelusan, kelakuan beretika dan perlindungan yang mantap dalam pembangunan AI. Apabila AI terus meresap pelbagai aspek kehidupan kita, adalah penting bahawa kita mewujudkan sempadan yang jelas dan garis panduan etika untuk memastikan penggunaannya yang bertanggungjawab dan bermanfaat.

Kes DeepSeek, tanpa mengira hasil akhirnya, sudah pasti akan membentuk wacana berterusan mengenai etika AI dan mempengaruhi trajektori masa depan pembangunan AI. Ia berfungsi sebagai peringatan bahawa usaha untuk inovasi mesti dilembutkan dengan komitmen terhadap prinsip etika dan pengiktirafan akibat yang berpotensi daripada tindakan kita. Masa depan AI bergantung pada keupayaan kita untuk menavigasi cabaran kompleks ini dengan kebijaksanaan dan pandangan jauh.

H2 Penyelidikan Lanjut Mengenai DeepSeek dan Tuduhan Gemini

Sebagai tambahan kepada dakwaan dan bukti sedia ada, beberapa penyelidikan lanjut boleh membantu menjelaskan sama ada DeepSeek benar-benar menggunakan data daripada Gemini Google untuk melatih model AI R1nya. Kajian ini boleh termasuk analisis yang lebih mendalam tentang output DeepSeek untuk mencari corak linguistik dan gaya yang konsisten dengan Gemini. Mereka juga boleh termasuk pemeriksaan yang lebih teliti terhadap data latihan DeepSeek untuk sebarang bukti data Gemini.

H2 Implikasi Ekonomi Potensi Penggunaan Data Tanpa Kebenaran

Sekiranya DeepSeek didapati menggunakan data Gemini tanpa kebenaran, ini boleh mempunyai implikasi ekonomi yang signifikan untuk Google dan syarikat AI lain. Ia boleh menyebabkan kerugian keuntungan kerana DeepSeek boleh bersaing dengan Google menggunakan data Google sendiri. Ia juga boleh menjejaskan reputasi Google dan syarikat AI lain yang melabur banyak wang dalam membangunkan model AI yang berkualiti tinggi.

H2 Peranan Pembuat Dasar dalam Mengatasi Latihan Model AI yang Tidak Beretika

Pembuat dasar memainkan peranan penting dalam menangani isu latihan model AI yang tidak beretika. Mereka boleh membangunkan peraturan dan undang-undang yang memerlukan syarikat AI untuk telus mengenai data latihan model mereka dan untuk mendapatkan kebenaran daripada pemilik data sebelum menggunakan data mereka. Mereka juga boleh membuat pelan untuk menghukum syarikat yang menggunakan data tanpa kebenaran.

H2 Pentingnya Kerjasama dalam Komuniti AI

Komuniti AI mesti bekerjasama untuk menangani cabaran yang ditimbulkan oleh latihan model AI yang tidak beretika. Kerjasama ini boleh termasuk berkongsi maklumat dan amalan terbaik, dan juga membangunkan piawaian dan garis panduan industri untuk latihan model AI. Dengan bekerja bersama-sama, komuniti AI boleh memastikan bahawa model AI dibangunkan dan digunakan secara bertanggungjawab dan beretika.

H2 Implikasi Jangka Panjang untuk Masa Depan AI

Dakwaan terhadap DeepSeek dan isu yang lebih luas mengenai latihan model AI yang tidak beretika mempunyai implikasi jangka panjang untuk masa depan AI. Sekiranya amalan tersebut tidak ditangani, mereka boleh menjejaskan kepercayaan terhadap AI, mengurangkan inovasi dan membawa kepada pemusatan kuasa. Adalah penting bahawa isu-isu ini ditangani untuk memastikan bahawa AI dibangunkan dan digunakan untuk memberi manfaat kepada masyarakat secara keseluruhan.

H2 Menangani Cabaran Bias dalam Set Data Latihan AI

Satu cabaran penting dalam pembangunan AI ialah memastikan bahawa set data latihan digunakan tidak berat sebelah. Set data yang berat sebelah boleh membawa kepada model AI yang berat sebelah, yang boleh mengabadikan dan memburukkan lagi ketaksamaan sosial. Untuk mengatasi cabaran ini, syarikat AI mesti berhati-hati memilih dan membersihkan set data latihan mereka, dan juga membangunkan teknik algoritma untuk mengesan dan mengurangkan berat sebelah.

H2 Memastikan Akauntabiliti dalam AI

Semakin AI menjadi lebih berkuasa dan meluas, adalah penting untuk mewujudkan mekanisme akauntabiliti yang jelas. Ini bermakna mewujudkan rangka kerja undang-undang dan etika untuk menentukan siapa yang bertanggungjawab apabila sistem AI menyebabkan bahaya. Ia juga bermakna membangunkan piawaian untuk ketelusan dan penjelasan dalam AI, supaya orang ramai dapat memahami bagaimana sistem AI membuat keputusan dan mengapa.

H2 Peranan Pendidikan dan Kesedaran Awam

Pendidikan dan kesedaran awam memainkan peranan penting dalam memastikan bahawa AI dibangunkan dan digunakan secara bertanggungjawab. Orang ramai perlu memahami potensi manfaat dan risiko AI, dan mereka juga perlu tahu cara untuk berinteraksi dengan sistem AI dan memegang mereka bertanggungjawab. Ini memerlukan melabur dalam program pendidikan dan jangkauan awam untuk mempromosikan literasi AI dan pemikiran kritikal.

H2 Menggalakkan Inovasi Bertanggungjawab dalam AI

Walaupun terdapat cabaran etika dan risiko yang berkaitan dengan AI, adalah penting untuk menggalakkan inovasi dan kemajuan bertanggungjawab dalam bidang ini. Inovasi AI mempunyai potensi untuk menangani beberapa cabaran masyarakat yang paling mendesak seperti perubahan iklim, penyakit dan kemiskinan. Untuk memastikan bahawa AI digunakan untuk memberi manfaat kepada masyarakat, adalah penting untuk mencipta ekosistem yang menyokong penyelidikan dan pembangunan AI yang beretika dan mampan.

H2 Mewujudkan Rangka Kerja Etika untuk AI

Untuk menavigasi cabaran etika dan dilema yang ditimbulkan oleh AI, adalah penting untuk mewujudkan rangka kerja etika yang komprehensif. Rangka kerja ini harus berdasarkan prinsip-prinsip seperti keadilan, akauntabiliti, ketelusan dan penghormatan terhadap hak asasi manusia. Ia juga harus disesuaikan dengan konteks dan bidang tertentu, dan ia harus dikaji dan dikemas kini secara kerap untuk mencerminkan perkembangan baharu dalam AI.

H2 Perluasan Tanggungjawab Sosial Korporat dalam AI

Untuk memastikan bahawa AI dibangunkan dan digunakan secara bertanggungjawab, syarikat mesti menganut tanggungjawab sosial korporat (CSR) dengan serius. Ini bermakna mengintegrasikan pertimbangan etika dan sosial ke dalam strategi perniagaan dan operasi mereka, dan juga aktif melibatkan diri dengan pihak berkepentingan untuk memahami dan menangani kebimbangan mereka. CSR dalam AI harus merangkumi isu-isu seperti privasi data, berat sebelah, akauntabiliti dan kesan alam sekitar.

H2 Menggalakkan Kepelbagaian dan Keterangkuman dalam AI

Untuk mengelakkanbias dan memastikan bahawa AI memberi manfaat kepada semua orang, adalah penting untuk menggalakkan kepelbagaian dan keterangkuman dalam pembangunan AI. Ini bermakna mewujudkan tenaga kerja yang lebih pelbagai dalam industri AI, tetapi juga memastikan bahawa set data latihan model AI mencerminkan kepelbagaian masyarakat. Ini memerlukan usaha untuk merekrut dan mengekalkan bakat daripada kumpulan yang kurang diwakili, dan juga membangunkan kaedah baharu untuk mengumpul dan menganalisis data secara inklusif.

H2 Masa Depan AI: Cabaran dan Peluang

Masa depan AI menjanjikan, tetapi ia juga menimbulkan cabaran dan peluang yang signifikan. Dengan menangani isu-isu etika, kebimbangan masyarakat dan keperluan untuk kepelbagaian dan keterangkuman, kita boleh memastikan bahawa AI dibangunkan dan digunakan untuk memberi manfaat kepada masyarakat secara keseluruhan. Ini memerlukan usaha berterusan oleh penyelidik, penggubal dasar, industri dan orang ramai untuk bekerjasama dan mewujudkan masa depan untuk AI yang beretika, mampan dan benar-benar memberi perkhidmatan kepada manusia.