Tiruan DeepSeek Terhadap OpenAI Terdedah?

Pendedahan Asal-Usul Latihan DeepSeek-R1

Penyelidikan terkini yang dijalankan oleh Copyleaks, sebuah firma yang mengkhusus dalam pengesanan dan tadbir urus AI, telah memberikan jawapan yang pasti mengenai sama ada DeepSeek-R1 dilatih pada model OpenAI: ya. DeepSeek, chatbot berkuasa AI yang tersedia secara percuma, mempunyai persamaan yang ketara dengan ChatGPT dalam penampilan, rasa, dan fungsinya.

Teknik ‘Fingerprinting’: Mengenal Pasti AI Pengarang

Untuk menjelaskan asal-usul teks yang dijana oleh AI, penyelidik membangunkan alat ‘fingerprinting’ teks yang inovatif. Alat ini direka untuk menentukan model AI khusus yang bertanggungjawab untuk menjana sekeping teks tertentu. Para penyelidik melatih alat itu dengan teliti menggunakan set data yang luas yang terdiri daripada ribuan sampel yang dijana oleh AI. Selepas itu, mereka mengujinya menggunakan model AI yang diketahui, dan hasilnya tidak dapat disangkal.

Persamaan yang Mengejutkan: DeepSeek-R1 dan OpenAI

Ujian itu mendedahkan statistik yang menarik: 74.2 peratus teks yang dihasilkan oleh DeepSeek-R1 mempamerkan padanan gaya dengan output OpenAI. Korelasi yang kuat ini sangat menunjukkan bahawa DeepSeek menggabungkan model OpenAI semasa fasa latihannya.

Pendekatan yang Berbeza: Phi-4 Microsoft

Untuk memberikan perspektif yang berbeza, pertimbangkan model Phi-4 Microsoft. Dalam ujian yang sama, Phi-4 menunjukkan ‘ketidaksetujuan’ 99.3 peratus yang luar biasa dengan mana-mana model yang diketahui. Hasil ini berfungsi sebagai bukti kukuh latihan bebas, menandakan bahawa Phi-4 dibangunkan tanpa bergantung pada model sedia ada. Perbezaan ketara antara sifat bebas Phi-4 dan persamaan DeepSeek yang luar biasa dengan OpenAI menggariskan replikasi atau penyalinan yang jelas.

Kebimbangan Etika dan Harta Intelek

Pendedahan ini menimbulkan kebimbangan serius mengenai persamaan DeepSeek-R1 dengan model OpenAI. Kebimbangan ini merangkumi beberapa bidang kritikal, termasuk:

  • Sumber Data: Asal-usul data yang digunakan untuk melatih DeepSeek-R1 menjadi persoalan penting.
  • Hak Harta Intelek: Potensi pelanggaran hak harta intelek OpenAI adalah kebimbangan yang ketara.
  • Ketelusan: Kurangnya ketelusan mengenai metodologi latihan DeepSeek menimbulkan persoalan etika.

Pasukan Penyelidik dan Metodologi

Pasukan Sains Data Copyleaks, yang diketuai oleh Yehonatan Bitton, Shai Nisan, dan Elad Bitton, menjalankan penyelidikan terobosan ini. Metodologi mereka berpusat pada pendekatan ‘juri sebulat suara’. Pendekatan ini melibatkan tiga sistem pengesanan yang berbeza, masing-masing ditugaskan untuk mengklasifikasikan teks yang dijana oleh AI. Penghakiman yang konklusif hanya dicapai apabila ketiga-tiga sistem bersetuju.

Implikasi Operasi dan Pasaran

Selain kebimbangan etika dan harta intelek, terdapat implikasi operasi praktikal yang perlu dipertimbangkan. Pergantungan yang tidak didedahkan pada model sedia ada boleh membawa kepada beberapa isu:

  • Pengukuhan Bias: Bias sedia ada dalam model asal boleh dikekalkan.
  • Kepelbagaian Terhad: Kepelbagaian output mungkin terhad, menghalang inovasi.
  • Risiko Undang-undang dan Etika: Kesan undang-undang atau etika yang tidak dijangka mungkin timbul.

Tambahan pula, dakwaan DeepSeek mengenai kaedah latihan revolusioner dan kos efektif, jika didapati berdasarkan penyulingan teknologi OpenAI yang tidak dibenarkan, boleh memberi kesan pasaran yang ketara. Ia mungkin telah menyumbang kepada kerugian besar NVIDIA sebanyak $593 bilion dalam satu hari dan berpotensi memberikan DeepSeek kelebihan daya saing yang tidak adil.

Pendekatan yang Tegas: Menggabungkan Pelbagai Pengelas

Metodologi penyelidikan menggunakan pendekatan yang sangat ketat, mengintegrasikan tiga pengelas AI lanjutan. Setiap pengelas ini dilatih dengan teliti pada sampel teks daripada empat model AI terkemuka:

  1. Claude
  2. Gemini
  3. Llama
  4. OpenAI

Pengelas ini direka untuk mengenal pasti nuansa gaya yang halus, termasuk:

  • Struktur Ayat: Susunan perkataan dan frasa dalam ayat.
  • Perbendaharaan Kata: Pilihan perkataan dan kekerapannya.
  • Frasa: Gaya dan nada ekspresi keseluruhan.

Sistem ‘Juri Sepakat’: Memastikan Ketepatan

Sistem ‘juri sebulat suara’ adalah elemen utama metodologi, memastikan pemeriksaan yang teguh terhadap positif palsu. Sistem ini memerlukan ketiga-tiga pengelas untuk bersetuju secara bebas pada klasifikasi sebelum ia dianggap muktamad. Kriteria ketat ini menghasilkan kadar ketepatan yang luar biasa iaitu 99.88 peratus dan kadar positif palsu yang sangat rendah iaitu hanya 0.04 peratus. Sistem ini menunjukkan keupayaannya untuk mengenal pasti teks dengan tepat daripada model AI yang diketahui dan tidak diketahui.

Melangkaui Pengesanan AI: Atribusi Khusus Model

‘Dengan penyelidikan ini, kami telah melangkah melangkaui pengesanan AI am seperti yang kita ketahui dan ke dalam atribusi khusus model, satu kejayaan yang mengubah secara asas cara kita mendekati kandungan AI,’ kata Shai Nisan, Ketua Saintis Data di Copyleaks.

Kepentingan Atribusi Model

Nisan seterusnya menekankan kepentingan keupayaan ini: ‘Keupayaan ini adalah penting untuk pelbagai sebab, termasuk meningkatkan ketelusan keseluruhan, memastikan amalan latihan AI yang beretika, dan, yang paling penting, melindungi hak harta intelek teknologi AI dan, mudah-mudahan, mencegah potensi penyalahgunaannya.’

Meneroka Lebih Dalam: Implikasi Pendekatan DeepSeek

Penemuan penyelidikan ini mempunyai implikasi yang meluas yang melangkaui persoalan segera sama ada DeepSeek menyalin model OpenAI. Mari kita terokai beberapa implikasi ini dengan lebih terperinci:

Ilusi Inovasi

Jika latihan DeepSeek sangat bergantung pada model OpenAI, ia menimbulkan persoalan tentang sejauh mana inovasinya yang sebenar. Walaupun DeepSeek mungkin telah membentangkan chatbotnya sebagai ciptaan baru, teknologi asasnya mungkin kurang hebat daripada yang didakwa pada mulanya. Ini boleh mengelirukan pengguna dan pelabur yang percaya bahawa mereka berinteraksi dengan sistem AI yang benar-benar unik.

Kesan ke atas Landskap AI

Penggunaan meluas model AI yang dilatih pada model lain boleh memberi kesan homogenisasi pada landskap AI. Jika banyak sistem AI akhirnya diperoleh daripada beberapa model asas, ia boleh mengehadkan kepelbagaian pendekatan dan perspektif dalam bidang tersebut. Ini boleh menyekat inovasi dan membawa kepada ekosistem AI yang kurang dinamik dan berdaya saing.

Keperluan untuk Ketelusan yang Lebih Besar

Kes ini menyerlahkan keperluan mendesak untuk ketelusan yang lebih besar dalam pembangunan dan penggunaan model AI. Pengguna dan pihak berkepentingan berhak mengetahui cara sistem AI dilatih dan sumber data yang digunakan. Maklumat ini penting untuk menilai potensi bias, batasan dan implikasi etika sistem ini.

Peranan Peraturan

Kes DeepSeek juga boleh mencetuskan perdebatan mengenai keperluan untuk peraturan yang lebih besar dalam industri AI. Kerajaan dan badan kawal selia mungkin perlu mempertimbangkan langkah-langkah untuk memastikan bahawa pembangun AI mematuhi garis panduan etika, melindungi hak harta intelek, dan menggalakkan ketelusan.

Masa Depan Pembangunan AI

Kontroversi yang menyelubungi kaedah latihan DeepSeek boleh menjadi pemangkin kepada perbincangan yang lebih luas mengenai masa depan pembangunan AI. Ia mungkin mendorong penilaian semula amalan terbaik, pertimbangan etika, dan kepentingan keaslian dalam penciptaan sistem AI.

Seruan untuk Pembangunan AI yang Bertanggungjawab

Kes DeepSeek berfungsi sebagai peringatan tentang kepentingan pembangunan AI yang bertanggungjawab. Ia menggariskan keperluan untuk:

  • Keaslian: Pembangun AI harus berusaha untuk mencipta model yang benar-benar baru dan bukannya terlalu bergantung pada model sedia ada.
  • Ketelusan: Data latihan dan metodologi yang digunakan untuk membangunkan sistem AI harus didedahkan kepada pengguna dan pihak berkepentingan.
  • Pertimbangan Etika: Pembangunan AI harus dipandu oleh prinsip etika, termasuk keadilan, akauntabiliti, dan menghormati hak harta intelek.
  • Kerjasama: Kerjasama terbuka dan perkongsian pengetahuan dalam komuniti AI boleh membantu memupuk inovasi dan mencegah replikasi bias sedia ada.

Laluan ke Hadapan: Memastikan Masa Depan AI yang Pelbagai dan Beretika

Matlamat utama adalah untuk mewujudkan ekosistem AI yang pelbagai dan beretika di mana inovasi berkembang pesat dan pengguna boleh mempercayai sistem yang mereka berinteraksi. Ini memerlukan komitmen terhadap amalan pembangunan AI yang bertanggungjawab, ketelusan, dan dialog berterusan mengenai implikasi etika teknologi yang berkembang pesat ini. Kes DeepSeek berfungsi sebagai pengajaran yang berharga, menonjolkan potensi perangkap bergantung terlalu banyak pada model sedia ada dan menekankan kepentingan keaslian dan pertimbangan etika dalam mengejar kemajuan AI. Masa depan AI bergantung pada pilihan yang kita buat hari ini, dan adalah penting untuk kita mengutamakan pembangunan yang bertanggungjawab untuk memastikan masa depan yang bermanfaat dan saksama untuk semua.
Penemuan siasatan Copyleaks telah memberi penerangan tentang aspek penting pembangunan AI, dan adalah penting bagi industri secara keseluruhan untuk belajar daripada pengalaman ini untuk memupuk masa depan yang lebih telus, beretika dan inovatif.