Dakwaan Muncul: Model AI DeepSeek Dilatih dengan Output Gemini Google?
Lanskap persaingan pembangunan kecerdasan buatan penuh dengan inovasi, cita-cita, dan kadang-kadang, tuduhan salah laku. Kontroversi terbaru tertumpu pada DeepSeek, sebuah syarikat yang telah meningkat dengan pesat dalam arena AI. DeepSeek kini menghadapi penelitian, dengan dakwaan bahawa model AI terbarunya, DeepSeek-R1-0528, dilatih menggunakan data yang diperoleh daripada model Gemini Google. Tuduhan ini, yang dilemparkan oleh penganalisis AI Sam Paech, mencadangkan potensi pelanggaran sempadan etika dan menimbulkan persoalan tentang integriti amalan pembangunan AI.
Penemuan Penganalisis: Menyelami DeepSeek-R1-0528
Sam Paech, seorang tokoh yang dihormati dalam komuniti analisis AI, menjalankan pemeriksaan mendalam terhadap DeepSeek-R1-0528. Menggunakan alat bioinformatik, Paech membedah perkhidmatan AI, mencari petunjuk tentang asal usul dan metodologi latihannya. Siasatannya membawanya kepada kesimpulan yang provokatif: DeepSeek-R1-0528 mempamerkan persamaan ketara dengan respons yang dijana oleh Gemini Google.
Paech memuat naik ke X (dahulunya Twitter) untuk berkongsi penemuannya, menyatakan, "If you are wondering why DeepSeek R1 sounds a bit different, I think they probably switched from training on synthetic OpenAI to synthetic Gemini outputs." Kenyataan ini membayangkan peralihan dalam sumber data latihan DeepSeek, berpotensi beralih daripada data sintetik yang dijana oleh model OpenAI kepada data yang diperoleh daripada Gemini. Implikasi ini adalah penting, mencadangkan pergantungan langsung pada teknologi pesaing. Data sintetik ialah data yang dicipta secara buatan dan bukannya diperoleh melalui pengukuran langsung. Ia sering digunakan untuk menambah data dunia sebenar dalam model pembelajaran mesin semasa latihan, ujian dan pengesahan. Menggunakan model AI sumber terbuka, sebagai contoh, adalah mungkin untuk menghasilkan data latihan dengan cepat.
Untuk menyiasat isu ini dengan lebih lanjut, Paech menyelidiki tapak komuniti pembangun Hugging Face, platform sumber terbuka yang popular untuk pembangun AI. Dengan memanfaatkan akaun kod pembangun GitHubnya, Paech menganalisis model DeepSeek dalam persekitaran Hugging Face, mencari pengesahan lanjut untuk tuntutannya.
Respons DeepSeek dan Tuntutan Inovasi
Pada Mei 2025, DeepSeek mengeluarkan versi terkini model DeepSeek-R1nya, yang ditetapkan sebagai 0528, melalui Hugging Face. Syarikat itu mendakwa bahawa lelaran ini mewakili lonjakan ketara dalam keupayaan AI. DeepSeek menegaskan bahawa model itu mempamerkan keupayaan inferens yang "lebih mendalam", mencadangkan keupayaan yang dipertingkatkan untuk membuat kesimpulan dan membuat ramalan berdasarkan data input.
Selain itu, DeepSeek menekankan peningkatan sumber pengiraan yang digunakan dalam latihan model 0528. Ini mencadangkan pelaburan yang besar dalam infrastruktur yang diperlukan untuk memproses dan menganalisis sejumlah besar data. Sebagai tambahan kepada peningkatan sumber, DeepSeek mendakwa telah melaksanakan "mekanisme pengoptimuman algoritma" semasa fasa pasca latihan. Mekanisme ini direka untuk memperhalusi prestasi model, meningkatkan ketepatan dan kecekapan.
DeepSeek menekankan prestasi cemerlang model 0528 merentasi pelbagai penanda aras penilaian. Penanda aras ini meliputi bidang kritikal seperti matematik, pengaturcaraan dan logik am, mempamerkan fleksibiliti dan kebolehan menyelesaikan masalah model. DeepSeek menyatakan di Hugging Face bahawa prestasi model "kini menghampiri model terkemuka, seperti O3 dan Gemini 2.5 Pro." Kenyataan ini meletakkan DeepSeek-R1-0528 sebagai pesaing yang kuat dalam landskap AI yang kompetitif.
Sam Paech juga membentangkan tangkapan skrin EQ-Bench mengenai hasil penilaian model AI. Ia menunjukkan satu siri versi model pembangunan Google: Gemini 2.5 Pro, Gemini 2.5 Flash, dan Gemma 3, membayangkan tentang sifat kompetitif pembangunan AImodel dan penanda aras yang digunakan untuk membandingkan prestasi.
Beban Bukti dan Pertimbangan Kontekstual
Walaupun analisis Paech telah mencetuskan perdebatan dalam komuniti AI, bukti yang dikemukakan masih agak bersifat keadaan. Memetik TechCrunch, laporan itu menyatakan bahawa bukti latihan oleh Gemini tidak kukuh, walaupun beberapa pembangun lain juga mendakwa telah menemui kesan Gemini. Ini menekankan kesukaran dalam membuktikan atau menyangkal dakwaan itu secara muktamad. Kerumitan model AI dan kerumitan data latihan menjadikannya mencabar untuk mengesan asal usul tepat keluaran atau tingkah laku tertentu.
Juga penting untuk mempertimbangkan konteks pembangunan AI yang lebih luas. Banyak model AI dilatih pada set data yang besar, sering menggabungkan maklumat yang tersedia secara umum dan sumber sumber terbuka. Garisan antara penggunaan data yang boleh diakses secara umum yang sah dan penggunaan maklumat proprietari yang tidak dibenarkan boleh menjadi kabur, terutamanya dalam bidang AI yang berkembang pesat.
Tuduhan Terdahulu: Corak Didakwa Salah Laku?
Ini bukan kali pertama DeepSeek menghadapi dakwaan menggunakan data model AI pesaing. Pada Disember 2024, kebimbangan serupa telah dibangkitkan mengenai model V3 DeepSeek. Banyak pembangun aplikasi memerhatikan bahawa model V3 sering mengenal pasti dirinya sebagai ChatGPT, chatbot OpenAI yang sangat popular. Tingkah laku ini membawa kepada spekulasi bahawa model DeepSeek telah dilatih, sekurang-kurangnya sebahagiannya, pada data yang dijana oleh ChatGPT.
Tuduhan lalu ini mewujudkan latar belakang syak wasangka, berpotensi mempengaruhi tafsiran dakwaan semasa. Walaupun insiden itu berasingan, secara kolektif ia menimbulkan persoalan tentang amalan perolehan data DeepSeek dan komitmen terhadap pembangunan AI yang beretika.
Implikasi untuk Industri AI
Dakwaan terhadap DeepSeek, sama ada terbukti atau tidak, mempunyai implikasi yang ketara untuk industri AI secara keseluruhan. Kontroversi itu menggariskan kepentingan asal usul data, ketelusan dan pertimbangan etika dalam pembangunan AI. Memandangkan model AI menjadi semakin canggih dan berpengaruh, adalah penting untuk mewujudkan garis panduan dan piawaian yang jelas untuk penggunaan data dan latihan model.
Dakwaan itu juga menyerlahkan cabaran mengawal penggunaan data model AI. Sifat kompleks model AI dan jumlah data yang besar yang terlibat menjadikannya sukar untuk mengesan dan membuktikan penggunaan yang tidak dibenarkan. Komuniti AI mesti membangunkan mekanisme yang berkesan untuk memantau asal usul data dan memastikan pematuhan kepada piawaian etika.
Pemeriksaan Lanjut dan Implikasi Masa Depan
Kontroversi DeepSeek harus berfungsi sebagai pemangkin untuk pemeriksaan lanjut amalan perolehan data dalam industri AI. Perbincangan yang lebih luas diperlukan untuk menjelaskan batasan penggunaan data yang boleh diterima dan untuk mewujudkan mekanisme untuk mengesan dan mencegah amalan yang tidak beretika.
Masa depan pembangunan AI bergantung pada kepercayaan dan keyakinan orang ramai. Jika model AI dilihat sebagai dibangunkan melalui cara yang tidak beretika atau tidak adil, ia boleh menghakis sokongan orang ramai dan menghalang penggunaan teknologi AI. Komuniti AI mesti mengutamakan pertimbangan etika dan ketelusan untuk memastikan kejayaan jangka panjang dan manfaat masyarakat kecerdasan buatan.
DeepSeek dan Komuniti Sumber Terbuka
Penglibatan DeepSeek dengan komuniti Hugging Face ialah aspek penting dalam situasi ini. Hugging Face ialah hab kolaboratif di mana pembangun berkongsi model, set data dan kod, memupuk inovasi dan kebolehcapaian dalam AI. Dengan mengeluarkan modelnya di Hugging Face, DeepSeek mendapat manfaat daripada maklum balas, penelitian dan potensi penambahbaikan komuniti. Walau bagaimanapun, keterbukaan ini juga bermakna modelnya tertakluk kepada pemeriksaan yang sengit, seperti yang ditunjukkan oleh analisis Sam Paech.
Insiden itu menggariskan sifat kerjasama sumber terbuka yang bermata dua. Walaupun ia menggalakkan inovasi dan ketelusan, ia juga mendedahkan model kepada potensi kelemahan dan dakwaan. Syarikat yang beroperasi dalam persekitaran sumber terbuka mesti berwaspada terutamanya tentang asal usul data dan pertimbangan etika, kerana tindakan mereka tertakluk kepada penelitian awam.
Peranan Data Sintetik dalam Latihan AI
Data sintetik memainkan peranan yang semakin penting dalam latihan AI. Ia boleh digunakan untuk menambah data dunia sebenar, mengisi jurang dalam set data, dan menangani berat sebelah. Walau bagaimanapun, penggunaan data sintetik juga menimbulkan kebimbangan etika. Jika model dilatih pada data sintetik yang diperoleh daripada model pesaing, ia boleh dianggap sebagai pelanggaran harta intelek atau garis panduan etika.
Kontroversi DeepSeek menyerlahkan keperluan untuk kejelasan dan peraturan yang lebih besar mengenai penggunaan data sintetik dalam latihan AI. Komuniti AI mesti membangunkan piawaian untuk memastikan bahawa data sintetik dijana secara beretika dan tidak melanggar hak orang lain.
Menanda Aras Model AI: Arena Kompetitif
Penanda aras model AI ialah aspek penting untuk menjejaki kemajuan dan membandingkan prestasi. Walau bagaimanapun, mengejar skor penanda aras yang tinggi juga boleh mendorong tingkah laku yang tidak beretika. Jika syarikat terlalu tertumpu untuk mencapai skor teratas, mereka mungkin tergugah untuk mengambil jalan pintas atau menggunakan data yang tidak dibenarkan untuk meningkatkan prestasi model mereka.
Tangkapan skrin EQ-Bench Sam Paech mengenai hasil penilaian model AI menunjukkan versi model pembangunan Google: Gemini 2.5 Pro, Gemini 2.5 Flash, dan Gemma 3. Ini menekankan sifat kompetitif pembangunan model AI dan penanda aras yang digunakan untuk membandingkan prestasi.
Kepentingan Audit Bebas
Untuk memastikan pembangunan AI yang beretika dan telus, audit bebas mungkin diperlukan. Juruaudit bebas boleh menyemak amalan perolehan data, metodologi latihan dan prestasi model syarikat untuk mengenal pasti potensi pelanggaran etika atau berat sebelah. Audit ini boleh membantu membina kepercayaan dan keyakinan orang ramai terhadap teknologi AI.
Kontroversi DeepSeek menggariskan keperluan untuk akauntabiliti yang lebih besar dalam industri AI. Syarikat harus bertanggungjawab ke atas implikasi etika model AI mereka, dan audit bebas boleh membantu memastikan bahawa mereka memenuhi kewajipan etika mereka.
Hala Tuju: Ketelusan dan Kerjasama
Hala tuju untuk industri AI terletak pada ketelusan dan kerjasama. Syarikat harus telus tentang amalan perolehan data dan metodologi latihan mereka. Mereka juga harus bekerjasama antara satu sama lain dan dengan komuniti AI yang lebih luas untuk membangunkan piawaian dan amalan terbaik yang beretika.
Kontroversi DeepSeek ialah peringatan bahawa industri AI masih di peringkat awal pembangunannya. Terdapat banyak kerja yang perlu dilakukan untuk memastikan bahawa teknologi AI dibangunkan dan digunakan secara beretika dan bertanggungjawab untuk manfaat semua umat manusia.
Akibat Undang-undang dan Hak Harta Intelek
Dakwaan terhadap DeepSeek menimbulkan persoalan undang-undang yang ketara berkaitan dengan hak harta intelek. Jika terbukti bahawa DeepSeek melatih model AInya menggunakan data yang diperoleh daripada Gemini Google tanpa kebenaran yang betul, ia boleh menghadapi tindakan undang-undang kerana pelanggaran hak cipta atau penyalahgunaan rahsia perdagangan.
Rangka kerja undang-undang sekitar AI dan harta intelek masih berkembang, dan DeepSeek boleh menetapkan duluan yang penting. Ia menyerlahkan keperluan untuk garis panduan undang-undang yang jelas mengenai penggunaan data model AI dan perlindungan hak harta intelek dalam era AI.
Mahkamah Pendapat Awam
Sebagai tambahan kepada potensi akibat undang-undang, DeepSeek juga menghadapi mahkamah pendapat awam. Dakwaan tingkah laku yang tidak beretika boleh merosakkan reputasi syarikat dan menghakis kepercayaan orang ramai. DeepSeek perlu menangani dakwaan itu secara telus dan mengambil langkah konkrit untuk menunjukkan komitmennya terhadap pembangunan AI yang beretika.
Persepsi orang ramai terhadap AI adalah penting untuk penerimaan meluasnya. Jika AI dilihat sebagai dibangunkan dan digunakan secara tidak beretika, ia boleh membawa kepada tindak balas orang ramai dan menghalang kemajuan teknologi AI.
Mengimbangkan Inovasi dan Etika
Kontroversi DeepSeek menyerlahkan ketegangan antara inovasi dan etika dalam industri AI. Syarikat berada di bawah tekanan untuk berinovasi dan membangunkan model AI yang canggih, tetapi mereka juga mesti memastikan mereka melakukan demikian secara beretika dan bertanggungjawab.
Komuniti AI mesti mencari jalan untuk mengimbangkan usaha mengejar inovasi dengan keperluan untuk pertimbangan etika. Ini memerlukan komitmen terhadap ketelusan, akauntabiliti dan kerjasama.
Masa Depan Tadbir Urus AI
DeepSeek menggariskan keperluan untuk tadbir urus AI yang lebih kukuh. Kerajaan dan badan kawal selia mungkin perlu campur tangan untuk mewujudkan panduan dan piawaian yang jelas untuk pembangunan dan penggunaan AI.
Tadbir urus AI harus memberi tumpuan kepada mempromosikan AI yang beretika, melindungi hak harta intelek dan memastikan keselamatan awam. Ia juga harus memupuk inovasi dan mengelakkan membantutkan pertumbuhan industri AI.
Kesimpulan: Seruan untuk Pembangunan AI Bertanggungjawab
Kontroversi DeepSeek ialah panggilan bangun tidur untuk industri AI. Ia menyerlahkan kepentingan pertimbangan etika, ketelusan dan akauntabiliti dalam pembangunan AI. Komuniti AI mesti belajar daripada insiden ini dan mengambil langkah konkrit untuk memastikan bahawa teknologi AI dibangunkan dan digunakan secara bertanggungjawab untuk manfaat semua umat manusia.