Dunia AI gempar dengan spekulasi berikutan keluaran terkini versi dipertingkatkan model penaakulan R1 DeepSeek. Makmal AI Cina ini telah mendedahkan model yang menunjukkan keupayaan yang mengagumkan dalam penanda aras matematik dan pengekodan. Walau bagaimanapun, asal usul data yang digunakan untuk melatih model ini telah menjadi tumpuan perbincangan, dengan beberapa penyelidik AI mencadangkan kemungkinan hubungan dengan keluarga AI Gemini Google.
Model R1 DeepSeek: Tinjauan Lebih Dekat
Model penaakulan R1 DeepSeek telah mendapat perhatian kerana prestasinya dalam bidang seperti penyelesaian masalah matematik dan tugas pengekodan. Keengganan syarikat untuk mendedahkan sumber data khusus yang digunakan dalam latihan model itu telah mencetuskan spekulasi dalam komuniti penyelidikan AI.
Dakwaan Pengaruh Gemini
Inti perdebatan berkisar pada kemungkinan DeepSeek memanfaatkan output daripada Gemini Google untuk meningkatkan modelnya sendiri. Sam Paech, pembangun AI yang pakar dalam penilaian “kecerdasan emosi”, membentangkan bukti yang mencadangkan bahawa model R1-0528 DeepSeek menunjukkan keutamaan untuk bahasa dan ungkapan yang serupa dengan yang digemari oleh Gemini 2.5 Pro Google. Walaupun pemerhatian ini sahaja tidak menjadi bukti muktamad, ia telah menyumbang kepada perbincangan yang berterusan.
Menambah lapisan lain kepada perbincangan, pencipta tanpa nama “SpeechMap,” alat penilaian AI yang berfokus pada kebebasan bersuara, menyatakan bahawa “pemikiran” yang dihasilkan oleh model DeepSeek - proses penaakulan dalaman yang digunakannya untuk sampai kepada kesimpulan - menyerupai corak jejak Gemini. Ini seterusnya meningkatkan persoalan sama ada DeepSeek menggunakan data daripada keluarga Gemini Google.
Tuduhan Terdahulu dan Kebimbangan OpenAI
Ini bukan kali pertama DeepSeek menghadapi tuduhan menggunakan data daripada model AI pesaing. Pada bulan Disember, diperhatikan bahawa model V3 DeepSeek sering mengenal pasti dirinya sebagai ChatGPT, chatbot AI OpenAI yang digunakan secara meluas. Ini membawa kepada syak wasangka bahawa model itu mungkin telah dilatih pada log sembang ChatGPT.
Menambah kepada intrik, OpenAI dilaporkan menemui bukti awal tahun ini yang menghubungkan DeepSeek dengan penggunaan penyulingan, teknik yang melibatkan pengekstrakan data daripada model AI yang lebih besar dan lebih berkuasa untuk melatih model yang lebih kecil. Menurut laporan, Microsoft, kolaborator utama dan pelabur dalam OpenAI, mengesan penyelewengan data yang ketara melalui akaun pembangun OpenAI pada akhir 2024. OpenAI percaya bahawa akaun ini dikaitkan dengan DeepSeek.
Walaupun penyulingan adalah amalan biasa dalam dunia AI, syarat perkhidmatan OpenAI secara jelas melarang pengguna menggunakan output model syarikat untuk mencipta sistem AI yang bersaing. Ini menimbulkan kebimbangan tentang potensi pelanggaran dasar OpenAI.
Cabaran “Pencemaran” AI
Adalah penting untuk mempertimbangkan bahawa model AI, semasa latihan, mungkin bertumpu pada perbendaharaan kata dan sebutan yang sama. Ini terutamanya kerana web terbuka, sumber utama data latihan untuk syarikat AI, semakin tepu dengan kandungan yang dijana AI. Ladang kandungan menggunakan AI untuk menghasilkan artikel clickbait, dan bot membanjiri platform seperti Reddit dan X dengan siaran yang dijana AI.
“Pencemaran” landskap data ini menjadikannya mencabar untuk menapis kandungan yang dijana AI daripada set data latihan dengan berkesan. Akibatnya, untuk menentukan sama ada output model benar-benar berasal daripada data model lain atau hanya mencerminkan kehadiran kandungan yang dijana AI di web boleh menjadi sukar.
Perspektif Pakar Mengenai Perkara Ini
Walaupun terdapat cabaran dalam membuktikan pautan itu secara definitif, pakar AI seperti Nathan Lambert, seorang penyelidik di institut penyelidikan AI AI2, percaya bahawa kemungkinan DeepSeek berlatih pada data daripada Gemini Google adalah munasabah. Lambert mencadangkan bahawa DeepSeek, menghadapi kekangan dalam ketersediaan GPU tetapi memiliki sumber kewangan yang mencukupi, mungkin mendapati lebih cekap untuk menggunakan data sintetik yang dihasilkan oleh model API terbaik yang tersedia.
Syarikat AI Meningkatkan Langkah Keselamatan
Kebimbangan tentang penyulingan dan penggunaan data tanpa kebenaran mendorong syarikat AI untuk meningkatkan langkah keselamatan mereka. OpenAI, contohnya, kini memerlukan organisasi untuk melengkapkan proses pengesahan ID untuk mengakses model lanjutan tertentu. Proses ini memerlukan ID yang dikeluarkan kerajaan dari negara yang disokong oleh API OpenAI, tidak termasuk China.
Google juga telah mengambil langkah untuk mengurangkan potensi penyulingan. Mereka baru-baru ini mula “meringkaskan” jejak yang dihasilkan oleh model yang tersedia melalui platform pembangun AI Studio mereka. Ini menyukarkan untuk melatih model yang bersaing dengan mengekstrak maklumat terperinci daripada jejak Gemini. Begitu juga, Anthropic mengumumkan rancangan untuk meringkaskan jejak modelnya sendiri, dengan alasan keperluan untuk melindungi “kelebihan daya saingnya.”
Implikasi untuk Landskap AI
Kontroversi yang menyelubungi DeepSeek dan potensi penggunaan data Gemini Google menyoroti beberapa isu penting dalam landskap AI:
- Etika data dan pembangunan AI yang bertanggungjawab: Memandangkan model AI menjadi semakin canggih, pertimbangan etika yang mengelilingi penyumberan dan penggunaan data menjadi yang terpenting. Syarikat AI perlu memastikan bahawa mereka mematuhi garis panduan etika dan menghormati hak harta intelek orang lain.
- Impak kandungan yang dijana AI: Pertambahan kandungan yang dijana AI di web menimbulkan cabaran untuk latihan AI. Memandangkan data menjadi semakin “tercemar,” semakin sukar untuk memastikan kualiti dan integriti model AI.
- Keperluan untuk ketelusan dan akauntabiliti: Syarikat AI harus telus tentang sumber data dan kaedah latihan mereka. Ini akan membantu membina kepercayaan dan memastikan bahawa AI dibangunkan dan digunakan secara bertanggungjawab.
- Kepentingan langkah keselamatan yang teguh: Memandangkan industri AI menjadi lebih kompetitif, syarikat AI perlu melaksanakan langkah keselamatan yang teguh untuk mengelakkan akses tanpa kebenaran kepada data dan model mereka.
Masa Depan Pembangunan AI
Kontroversi DeepSeek berfungsi sebagai peringatan tentang cabaran etika dan teknikal kompleks yang dihadapi oleh industri AI. Memandangkan AI terus berkembang, adalah penting bagi syarikat AI, penyelidik dan penggubal dasar untuk bekerjasama untuk memastikan bahawa AI dibangunkan dan digunakan dengan cara yang memberi manfaat kepada masyarakat. Ini termasuk mempromosikan ketelusan, akauntabiliti dan amalan data beretika.
Perdebatan Berterusan
Dakwaan terhadap DeepSeek menggariskan kebimbangan yang semakin meningkat mengenai privasi data, keselamatan dan pembangunan AI yang beretika. Kekurangan ketelusan dalam penyumberan data dan garis yang semakin kabur antara pengumpulan data yang sah dan pengikisan data tanpa kebenaran menuntut peraturan yang jelas dan amalan yang bertanggungjawab dalam komuniti AI. Seiring kemajuan teknologi, industri mesti bergulat dengan isu-isu seperti hak harta intelek, risiko “pencemaran AI,” dan potensi akibat yang tidak diingini.
Etika Data Latihan AI
Kontroversi yang menyelubungi DeepSeek juga menyoroti pertimbangan etika yang timbul ketika mengumpulkan data latihan untuk model AI. Dengan peningkatan pergantungan pada set data yang luas yang dikikis dari internet, soalan seperti siapa memiliki data, bagaimana persetujuan diperoleh (atau diabaikan), dan apakah data tersebut digunakan secara adil dan bertanggungjawab menjadi lebih mendesak. Komuniti AI mesti menetapkan garis panduan yang jelas untuk penyumberan data yang menghormati undang-undang hak cipta, melindungi maklumat peribadi, dan mengurangkan bias.
Perlumbaan untuk Dominasi AI
Tuduhan terhadap DeepSeek juga boleh ditafsirkan sebagai cerminan perlumbaan sengit untuk dominasi AI antara Amerika Syarikat dan China. Kedua-dua negara mencurahkan berbilion dolar ke dalam penyelidikan dan pembangunan AI, dan tekanan untuk mencapai kejayaan mendorong persaingan dan berpotensi memotong sudut. Jika DeepSeek sememangnya menggunakan data OpenAI atau Google tanpa kebenaran, ia boleh ditafsirkan sebagai contoh taktik agresif dan kecurian harta intelek yang telah lama melanda hubungan teknologi AS-China.
Implikasi Lebih Luas untuk Ekosistem AI
Walaupun tumpuan pada masa ini adalah pada DeepSeek, kes ini boleh mempunyai implikasi yang lebih luas untuk keseluruhan ekosistem AI. Jika terbukti bahawa DeepSeek telah menggunakan data daripada ChatGPT atau Gemini secara haram, ia boleh mendorong syarikat lain untuk mengaudit dengan teliti amalan penyumberan data mereka sendiri, yang berpotensi memperlahankan kadar pembangunan dan meningkatkan kos. Ia juga boleh membawa kepada peraturan yang lebih ketat sekitar pengumpulan dan penggunaan data, bukan sahaja di AS dan China, tetapi di seluruh dunia.
Impak Data yang Dijana Secara Sintetik
Kemunculan data sintetik, yang dicadangkan oleh Lambert, sebagai alternatif yang berdaya maju untuk melatih model menimbulkan soalan asas tentang masa depan pembangunan AI. Walaupun set data sintetik memintas beberapa kebimbangan etika dan hak cipta yang berkaitan dengan data dunia sebenar, prestasi dan ketahanan model yang dilatih pada data sintetik sering gagal untuk dipadankan dengan yang dilatih pada data asal. Komuniti AI perlu mencari pendekatan inovatif untuk menjana set data sintetik yang canggih yang memenuhi keperluan industri tanpa menjejaskan ketepatan dan kebolehpercayaan.
Ringkasan Model sebagai Bentuk Tadbir Urus Data
Keputusan Google dan Anthropic baru-baru ini untuk mula “meringkaskan” jejak yang dihasilkan oleh model mereka menunjukkan kepentingan tadbir urus data yang semakin meningkat dalam industri AI. Dengan mengaburkan maklumat terperinci dalam proses membuat keputusan model, syarikat menyukarkan orang lain untuk membalikkan kejurutera teknologi mereka. Pendekatan ini boleh membantu melindungi rahsia perdagangan dan menegakkan amalan penyumberan data beretika, tetapi ia juga menimbulkan soalan tentang ketelusan dan keterjelasan sistem AI.
Mengimbangi Inovasi dengan Pertimbangan Etika dan Undang-undang
Kontroversi DeepSeek menggariskan keperluan untuk mencapai keseimbangan yang teliti antara menggalakkan inovasi AI dan melindungi hak harta intelek dan memastikan pematuhan kepada prinsip etika. Memandangkan model AI terus berkembang dalam kecanggihan dan kerumitan, cabaran etika dan undang-undang yang dihadapi oleh industri hanya akan menjadi lebih ketara. Mencari keseimbangan yang tepat antara kebimbangan ini akan menjadi kritikal untuk memupuk pembangunan AI yang bertanggungjawab dan mampan.