Daya tarikan kecerdasan buatan (AI) semakin kuat, menjanjikan kecekapan dan transformasi merentasi pelbagai industri. Prospek yang sangat menarik ialah menjalankan model AI yang berkuasa secara terus pada komputer peribadi, mengatasi kebergantungan kepada awan, yuran langganan, dan kebimbangan privasi data. Gergasi seperti Google, Meta, dan Mistral AI telah menyediakan Model Bahasa Besar (LLM) yang canggih secara percuma untuk dimuat turun. Tetapi adakah kebolehcapaian ini diterjemahkan kepada utiliti praktikal? Bolehkah minda digital ini, yang terhad kepada silikon desktop atau komputer riba, benar-benar menambah baik aliran kerja yang kompleks seperti penulisan kewartawanan? Catatan ini memperincikan eksperimen meluas yang direka untuk menjawab persoalan tersebut dengan tepat.
Menyediakan Pentas: Eksperimen AI Tempatan
Selama beberapa bulan, usaha khusus telah dijalankan untuk menilai prestasi dunia sebenar pelbagai LLM yang boleh dimuat turun secara percuma yang beroperasi sepenuhnya pada perkakasan tempatan. Senarai model yang diteliti adalah pelbagai, mencerminkan landskap AI sumber terbuka yang berkembang pesat:
- Google Gemma (khususnya versi 3)
- Meta Llama (versi 3.3)
- Anthropic Claude (versi 3.7 Sonnet – walaupun biasanya berasaskan awan, kemasukannya mencadangkan ujian yang luas)
- Pelbagai lelaran daripada Mistral AI (termasuk Mistral, Mistral Small 3.1, Mistral Nemo, dan Mixtral)
- IBM Granite (versi 3.2)
- Alibaba Qwen (versi 2.5)
- DeepSeek R1 (lapisan penaakulan yang sering digunakan pada versi Qwen atau Llama yang disuling)
Objektif terasnya adalah bercita-cita tinggi namun praktikal: untuk menentukan sama ada AI yang dijalankan secara tempatan ini boleh mengubah transkrip temu bual mentah menjadi artikel yang digilap dan sedia untuk diterbitkan. Ini melibatkan penilaian bukan sahaja kebolehlaksanaan teknikal – bolehkah perkakasan mengendalikan beban? – tetapi juga output kualitatif – adakah teks yang terhasil boleh digunakan? Adalah penting untuk menyatakan di awal bahawa mencapai artikel yang diautomasikan sepenuhnya dan sedia untuk diterbitkan terbukti sukar dicapai. Matlamat utama beralih kepada memahami keupayaan dan batasan sebenar AI pada peranti semasa melalui kes penggunaan khusus yang mencabar ini.
Metodologi yang dipilih berpusat pada prompt yang besar. Ini termasuk kira-kira 1,500 token (lebih kurang 6,000 aksara atau dua muka surat penuh teks) yang menggariskan struktur, gaya, dan nada artikel yang dikehendaki secara teliti. Ditambah kepada set arahan ini ialah transkrip temu bual itu sendiri, purata sekitar 11,000 token untuk perbualan biasa selama 45 minit. Saiz input gabungan yang besar ini (sering melebihi 12,500 token) biasanya melepasi had penggunaan percuma banyak platform AI dalam talian. Kekangan ini menekankan rasional untuk meneroka penggunaan tempatan, di mana pemprosesan kekal percuma tanpa mengira saiz input, hanya dihadkan oleh keupayaan mesin.
Melaksanakan ujian ini melibatkan penggunaan LM Studio, perisian komuniti popular yang menyediakan antara muka seperti chatbot yang mesra pengguna untuk berinteraksi dengan LLM yang berjalan secara tempatan. LM Studio dengan mudah menyepadukan fungsi untuk memuat turun pelbagai versi model, walaupun sumber utama untuk model yang tersedia secara percuma ini kekal sebagai repositori Hugging Face, hab pusat untuk komuniti AI.
Menavigasi Labirin Teknikal: Perkakasan, Memori, dan Saiz Model
Perjalanan ke dalam pemprosesan AI tempatan dengan cepat mendedahkan interaksi kompleks antara perisian dan perkakasan. Kualiti dan kelajuan output AI berkait rapat dengan sumber yang tersedia pada mesin ujian – Mac yang dilengkapi dengan system-on-chip (SoC) Apple Silicon M1 Max dan RAM 64 GB yang besar. Secara kritikal, seni bina ini menampilkan Unified Memory Architecture (UMA), membolehkan 48 GB RAM dikongsi secara dinamik antara teras pemproses (CPU), teras grafik (GPU – digunakan untuk pecutan vektor), dan teras unit pemprosesan neural (NPU – digunakan untuk pecutan matriks).
Beberapa faktor teknikal utama muncul sebagai penentu:
- Parameter Model: LLM sering diukur dengan bilangan parameternya (berbilion, biasanya). Model yang lebih besar secara amnya mempunyai pengetahuan dan nuansa yang lebih besar. Walau bagaimanapun, ia memerlukan memori yang jauh lebih banyak.
- Kuantisasi (Quantization): Ini merujuk kepada ketepatan yang digunakan untuk menyimpan parameter model (cth., 8-bit, 4-bit, 3-bit). Ketepatan bit yang lebih rendah secara drastik mengurangkan jejak memori dan meningkatkan kelajuan pemprosesan, tetapi selalunya dengan mengorbankan ketepatan dan kualiti output (memperkenalkan ralat, pengulangan, atau bahasa yang tidak masuk akal).
- Tetingkap Konteks (Context Window): Ini mentakrifkan jumlah maksimum maklumat (prompt + data input) yang boleh dipertimbangkan oleh AI sekaligus, diukur dalam token. Saiz tetingkap yang diperlukan ditentukan oleh tugas; dalam kes ini, prompt dan transkrip yang besar memerlukan tetingkap yang besar.
- RAM Tersedia: Jumlah memori secara langsung mengehadkan model mana (dan pada tahap kuantisasi mana) yang boleh dimuatkan dan dijalankan dengan berkesan.
Titik manis, yang memberikan keseimbangan kualiti dan kebolehlaksanaan terbaik pada mesin ujian pada masa penilaian, dicapai menggunakan model Gemma Google dengan 27 bilion parameter, dikuantisasi kepada 8 bit (versi ‘27B Q8_0’). Konfigurasi ini beroperasi dalam tetingkap konteks 32,000 token, dengan selesa mengendalikan input kira-kira 15,000 token (arahan + transkrip). Ia berjalan pada perkakasan Mac yang dinyatakan, menggunakan memori kongsi 48 GB.
Di bawah keadaan optimum ini, kelajuan pemprosesan diukur pada 6.82 token sesaat. Walaupun berfungsi, ini jauh dari serta-merta. Peningkatan kelajuan tanpa mengorbankan kualiti output terutamanya bergantung pada perkakasan yang lebih pantas – khususnya, SoC dengan kelajuan jam yang lebih tinggi (GHz) atau bilangan teras pemprosesan yang lebih besar (CPU, GPU, NPU).
Percubaan untuk memuatkan model dengan parameter yang jauh lebih banyak (cth., 32 bilion, 70 bilion) dengan cepat mencecah siling memori. Model yang lebih besar ini sama ada gagal dimuatkan sepenuhnya atau menghasilkan output yang terpotong teruk dan tidak boleh digunakan (seperti satu perenggan bukannya artikel penuh). Sebaliknya, menggunakan model dengan parameter yang lebih sedikit, sambil membebaskan memori, mengakibatkan penurunan kualiti penulisan yang ketara, dicirikan oleh pengulangan dan idea yang diartikulasikan dengan buruk. Begitu juga, menggunakan kuantisasi yang lebih agresif (mengurangkan parameter kepada 3, 4, 5, atau 6 bit) meningkatkan kelajuan tetapi merosotkan output dengan teruk, memperkenalkan kesilapan tatabahasa dan juga perkataan rekaan.
Saiz tetingkap konteks yang diperlukan, ditentukan oleh data input, pada dasarnya tidak boleh dirunding untuk tugas tersebut. Jika data input menuntut tetingkap yang, digabungkan dengan saiz model dan kuantisasi yang dipilih, melebihi RAM yang tersedia, satu-satunya jalan keluar ialah memilih model yang lebih kecil, yang tidak dapat dielakkan menjejaskan potensi kualiti hasil akhir untuk kekal dalam had memori.
Pencarian Kualiti: Apabila Struktur Bertemu Substansi (atau Kekurangannya)
Adakah AI yang dijalankan secara tempatan berjaya menghasilkan artikel yang boleh digunakan? Ya dan tidak. Teks yang dihasilkan sering menunjukkan struktur yang sangat baik. Mereka secara amnya mematuhi format yang diminta, menampilkan:
- Sudut atau fokus yang boleh dilihat.
- Aliran yang koheren melalui bahagian tematik.
- Petikan yang diletakkan dengan sesuai daripada transkrip.
- Tajuk utama dan ayat penutup yang menarik.
Walau bagaimanapun, kelemahan kritikal muncul secara konsisten merentasi semua LLM yang diuji, termasuk yang seperti DeepSeek R1, yang direka khusus untuk penaakulan yang dipertingkatkan: ketidakupayaan asas untuk membezakan dan mengutamakan kerelevanan maklumat dalam temu bual dengan betul. Model AI secara konsisten terlepas inti perbualan, sebaliknya memberi tumpuan kepada perkara sekunder atau butiran sampingan.
Hasilnya selalunya adalah artikel yang kukuh dari segi tatabahasa dan tersusun rapi tetapi akhirnya dangkal dan tidak menarik. Dalam sesetengah keadaan, AI akan mendedikasikan petikan yang signifikan dan dihujahkan dengan baik untuk menyatakan perkara yang jelas – contohnya, menghuraikan panjang lebar bahawa syarikat yang ditemu bual beroperasi dalam pasaran dengan pesaing. Ini menonjolkan jurang antara kecekapan linguistik (membentuk ayat yang koheren) dan pemahaman tulen (memahami kepentingan dan konteks).
Tambahan pula, output gaya berbeza dengan ketara antara model:
- Meta Llama 3.x: Pada masa ujian, menghasilkan ayat yang sering berbelit-belit dan sukar dihuraikan.
- Model Mistral & Gemma: Menunjukkan kecenderungan ke arah gaya “cakap pemasaran”, menggunakan kata sifat yang melimpah dan pembingkaian positif tetapi kekurangan bahan konkrit dan perincian khusus.
- Alibaba Qwen: Secara mengejutkan, dalam kekangan persediaan ujian, model Cina ini menghasilkan beberapa prosa yang paling estetik dalam bahasa Perancis (bahasa pasukan penilaian asal).
- Mixtral 8x7B: Pada mulanya, model “campuran pakar” ini (menggabungkan lapan model 7 bilion parameter yang lebih kecil dan khusus) menunjukkan potensi. Walau bagaimanapun, untuk memuatkannya dalam kekangan memori 48 GB memerlukan kuantisasi 3-bit yang agresif, yang membawa kepada ralat sintaks yang ketara. Versi kuantisasi 4-bit (‘Q4_K_M’) menawarkan kompromi yang lebih baik pada mulanya, tetapi kemas kini seterusnya pada perisian LM Studio meningkatkan jejak memorinya, menyebabkan konfigurasi ini juga menghasilkan hasil yang terpotong.
- Mistral Small 3.1: Model yang lebih baru dengan 24 bilion parameter pada kuantisasi 8-bit muncul sebagai pesaing kuat. Kualiti outputnya menghampiri model Gemma 27B, dan ia menawarkan sedikit kelebihan kelajuan, memproses pada 8.65 token sesaat.
Variasi ini menekankan bahawa memilih LLM bukan hanya mengenai saiz atau kelajuan; data latihan dan seni bina asasnya mempengaruhi gaya penulisan dan potensi biasnya dengan ketara.
Seni Bina Perkakasan: Wira AI Tempatan yang Tidak Didendang
Eksperimen ini memberi penerangan tentang faktor penting yang sering diabaikan: seni bina perkakasan asas, khususnya cara memori diakses. Prestasi unggul yang diperhatikan pada Mac Apple Silicon bukan semata-mata disebabkan oleh jumlah RAM tetapi secara kritikal bergantung pada Unified Memory Architecture (UMA) nya.
Dalam sistem UMA, teras CPU, GPU, dan NPU semuanya berkongsi kumpulan RAM fizikal yang sama dan boleh mengakses data pada alamat memori yang sama secara serentak. Ini menghapuskan keperluan untuk menyalin data antara kumpulan memori berasingan yang didedikasikan untuk pemproses yang berbeza (cth., RAM sistem untuk CPU dan VRAM khusus untuk kad grafik diskret).
Mengapa ini sangat penting untuk LLM?
- Kecekapan: Pemprosesan LLM melibatkan pengiraan intensif merentasi pelbagai jenis teras. UMA membolehkan perkongsian data yang lancar, mengurangkan kependaman dan overhed yang berkaitan dengan penduaan dan pemindahan data.
- Penggunaan Memori: Dalam sistem tanpa UMA (seperti PC biasa dengan GPU diskret), data yang sama mungkin perlu dimuatkan ke dalam kedua-dua RAM sistem utama (untuk CPU) dan VRAM GPU. Ini secara berkesan mengurangkan memori yang boleh digunakan untuk LLM itu sendiri.
Implikasi praktikalnya adalah signifikan. Walaupun Mac ujian boleh menjalankan model 27 bilion parameter, kuantisasi 8-bit dengan selesa menggunakan 48 GB RAM UMA kongsi, mencapai prestasi yang sama pada PC tanpa UMA mungkin memerlukan RAM keseluruhan yang jauh lebih banyak. Contohnya, PC dengan jumlah RAM 48 GB yang dibahagikan kepada 24 GB untuk CPU dan 24 GB untuk GPU mungkin hanya mampu menjalankan model 13 bilion parameter yang jauh lebih kecil dengan berkesan, disebabkan oleh pembahagian memori dan overhed penduaan data.
Kelebihan seni bina ini menjelaskan mengapa Mac dengan cip Apple Silicon mendapat kelebihan awal dalam ruang AI tempatan. Menyedari hal ini, pesaing seperti AMD mengumumkan rangkaian SoC Ryzen AI Max mereka (dijangka pada awal 2025) yang direka untuk menggabungkan pendekatan memori bersatu yang serupa. Pada masa ujian ini, SoC Intel Core Ultra, walaupun menyepadukan CPU, GPU, dan NPU, tidak menampilkan tahap akses memori bersatu sepenuhnya yang sama merentasi semua jenis teras. Perbezaan perkakasan ini merupakan pertimbangan kritikal bagi sesiapa yang serius untuk menjalankan LLM yang lebih besardan lebih berkebolehan secara tempatan.
Tarian Rumit Kejuruteraan Prompt
Membuat AI melakukan tugas yang kompleks seperti mengubah temu bual menjadi artikel memerlukan lebih daripada sekadar perkakasan yang berkuasa dan model yang berkebolehan; ia menuntut arahan yang canggih – seni dan sains kejuruteraan prompt (prompt engineering). Merangka prompt awal 1,500 token yang membimbing AI adalah satu usaha yang signifikan.
Titik permulaan yang berguna melibatkan kejuruteraan terbalik (reverse engineering): memberikan AI artikel lengkap yang ditulis oleh manusia berserta transkrip yang sepadan dan bertanya apakah prompt yang sepatutnya diberikan untuk mencapai hasil itu. Menganalisis cadangan AI merentasi beberapa contoh yang pelbagai membantu mengenal pasti elemen penting untuk set arahan.
Walau bagaimanapun, cadangan prompt yang dijana AI secara konsisten terlalu ringkas dan kekurangan perincian yang diperlukan untuk membimbing penciptaan artikel yang komprehensif. Kerja sebenar terletak pada mengambil petunjuk awal yang disediakan AI ini dan menghuraikannya, membenamkan pengetahuan domain yang mendalam tentang struktur, nada, gaya, dan pertimbangan etika kewartawanan.
Beberapa pengajaran yang tidak intuitif muncul:
- Kejelasan Mengatasi Keanggunan: Anehnya, menulis prompt dalam gaya yang lebih semula jadi dan mengalir sering mengurangkan pemahaman AI. Model bergelut dengan kekaburan, terutamanya kata ganti nama (“dia,” “ia,” “ini”). Pendekatan yang paling berkesan melibatkan pengorbanan kebolehbacaan manusia untuk ketepatan mesin, secara eksplisit mengulangi subjek (“artikel itu harus…”, “nada artikel itu mesti…”, “pengenalan artikel itu perlu…”) untuk mengelakkan sebarang potensi salah tafsir.
- Sifat Kreativiti yang Sukar Difahami: Walaupun reka bentuk prompt yang teliti bertujuan untuk membolehkan fleksibiliti, artikel yang dijana AI secara konsisten berkongsi “persamaan keluarga.” Menangkap keluasan kreativiti manusia dan variasi gaya dalam satu prompt, atau bahkan beberapa prompt yang bersaing, terbukti sangat sukar. Kepelbagaian sebenar nampaknya memerlukan anjakan yang lebih asas daripada yang boleh disediakan oleh pengubahsuaian prompt sahaja.
Kejuruteraan prompt bukanlah tugas sekali sahaja tetapi proses lelaran penambahbaikan, pengujian, dan penggabungan logik perniagaan khusus dan nuansa gaya. Ia memerlukan gabungan pemahaman teknikal dan kepakaran subjek yang mendalam.
Peralihan Beban Kerja: Membongkar Paradoks AI
Eksperimen ini akhirnya membawa kepadakesedaran kritikal, yang digelar paradoks AI (AI paradox): dalam keadaannya sekarang, agar AI berpotensi meringankan sebahagian beban kerja pengguna (menulis draf artikel), pengguna sering kali perlu melaburkan lebih banyak kerja awal.
Isu terasnya kekal pada ketidakupayaan AI untuk mengukur kerelevanan secara konsisten dalam transkrip temu bual mentah. Untuk menghasilkan artikel yang relevan, sekadar memberikan keseluruhan transkrip adalah tidak mencukupi. Langkah perantaraan yang perlu muncul: pra-pemprosesan transkrip secara manual. Ini melibatkan:
- Membuang perbualan yang tidak relevan, penyimpangan, dan lewah.
- Berpotensi menambah nota kontekstual (walaupun tidak dimaksudkan untuk artikel akhir) untuk membimbing pemahaman AI.
- Memilih dengan teliti dan mungkin menyusun semula segmen utama.
“Kurasi” transkrip ini memerlukan masa dan pertimbangan manusia yang signifikan. Masa yang dijimatkan dengan meminta AI menjana draf pertama secara berkesan diimbangi, atau bahkan diatasi, oleh tugas baharu menyediakan data inputnya dengan teliti. Beban kerja tidak hilang; ia hanya beralih daripada penulisan langsung kepada penyediaan data dan penambahbaikan prompt.
Tambahan pula, prompt terperinci 1,500 token sangat spesifik kepada satu jenis artikel (cth., temu bual mengenai pelancaran produk). Meliputi pelbagai format artikel yang dihasilkan oleh wartawan setiap hari – profil syarikat permulaan, analisis strategik, liputan acara, penyiasatan pelbagai sumber – memerlukan pembangunan, pengujian, dan penyelenggaraan prompt terperinci yang berasingan untuk setiap kes penggunaan. Ini mewakili pelaburan kejuruteraan awal dan berterusan yang besar.
Lebih teruk lagi, eksperimen meluas ini, yang berlangsung selama lebih enam bulan, hanya menyentuh permukaan. Mereka memberi tumpuan kepada senario paling mudah: menjana artikel daripada satu temu bual, selalunya dijalankan dalam tetapan terkawal seperti sidang akhbar di mana perkara yang disampaikan oleh orang yang ditemu bual sudah agak tersusun. Tugas yang jauh lebih kompleks, namun biasa, iaitu mensintesis maklumat daripada pelbagai temu bual, menggabungkan penyelidikan latar belakang, atau mengendalikan perbualan yang kurang berstruktur kekal tidak diterokai kerana pelaburan masa yang diperlukan walaupun untuk kes asas.
Oleh itu, walaupun menjalankan LLM secara tempatan adalah boleh dilaksanakan secara teknikal dan menawarkan faedah dari segi kos dan privasi data, tanggapan bahawa ia mudah menjimatkan masa atau usaha untuk kerja pengetahuan yang kompleks seperti kewartawanan adalah, berdasarkan penyiasatan ini, ilusi pada masa ini. Usaha yang diperlukan hanya berubah bentuk, bergerak ke hulu ke dalam penyediaan data dan kejuruteraan prompt yang sangat spesifik. Mengenai cabaran khusus ini – membezakan kerelevanan, memerlukan pra-pemprosesan yang meluas – AI yang dijalankan secara tempatan menunjukkan prestasi yang setanding dengan perkhidmatan dalam talian berbayar, menunjukkan bahawa ini adalah batasan asas generasi LLM semasa, tanpa mengira kaedah penggunaan. Laluan ke arah bantuan AI yang benar-benar lancar dalam domain sedemikian kekal rumit dan menuntut evolusi selanjutnya dalam kedua-dua keupayaan AI dan kaedah interaksi kita dengannya.