ควบคุมสมองซิลิคอน: สำรวจ AI บนอุปกรณ์เพื่องานข่าว

เสียงเรียกร้องของปัญญาประดิษฐ์ (AI) ดังขึ้นเรื่อยๆ พร้อมคำมั่นสัญญาถึงประสิทธิภาพและการเปลี่ยนแปลงในอุตสาหกรรมต่างๆ แนวคิดที่น่าดึงดูดใจเป็นพิเศษคือการรันโมเดล AI อันทรงพลังโดยตรงบนคอมพิวเตอร์ส่วนบุคคล ซึ่งช่วยลดการพึ่งพาคลาวด์ ค่าธรรมเนียมการสมัครสมาชิก และข้อกังวลด้านความเป็นส่วนตัวของข้อมูล บริษัทใหญ่ๆ อย่าง Google, Meta และ Mistral AI ได้เปิดให้ดาวน์โหลด Large Language Models (LLMs) ที่ซับซ้อนได้ฟรี แต่ความสามารถในการเข้าถึงนี้แปลไปสู่ประโยชน์ใช้สอยในทางปฏิบัติได้จริงหรือ? จิตดิจิทัลเหล่านี้ ซึ่งถูกจำกัดอยู่ในซิลิคอนของเดสก์ท็อปหรือแล็ปท็อป สามารถเสริมกระบวนการทำงานที่ซับซ้อนอย่างการเขียนข่าวได้จริงหรือไม่? เรื่องราวนี้ให้รายละเอียดเกี่ยวกับการทดลองอย่างกว้างขวางที่ออกแบบมาเพื่อตอบคำถามนั้นอย่างแม่นยำ

การเตรียมการ: การทดลอง AI บนเครื่อง

ในช่วงหลายเดือนที่ผ่านมา มีความพยายามอย่างทุ่มเทเพื่อประเมินประสิทธิภาพในโลกแห่งความเป็นจริงของ LLMs ต่างๆ ที่ดาวน์โหลดได้ฟรี ซึ่งทำงานทั้งหมดบนฮาร์ดแวร์ในเครื่อง รายชื่อโมเดลที่อยู่ภายใต้การตรวจสอบมีความหลากหลาย สะท้อนให้เห็นถึงภูมิทัศน์ที่พัฒนาอย่างรวดเร็วของ AI โอเพนซอร์ส:

  • Google Gemma (โดยเฉพาะเวอร์ชัน 3)
  • Meta Llama (เวอร์ชัน 3.3)
  • Anthropic Claude (เวอร์ชัน 3.7 Sonnet – แม้ว่าโดยทั่วไปจะใช้คลาวด์ แต่การรวมไว้แสดงให้เห็นถึงการทดสอบในวงกว้าง)
  • โมเดลหลายเวอร์ชันจาก Mistral AI (รวมถึง Mistral, Mistral Small 3.1, Mistral Nemo และ Mixtral)
  • IBM Granite (เวอร์ชัน 3.2)
  • Alibaba Qwen (เวอร์ชัน 2.5)
  • DeepSeek R1 (เลเยอร์การให้เหตุผลที่มักใช้กับเวอร์ชันกลั่นของ Qwen หรือ Llama)

วัตถุประสงค์หลักนั้นท้าทายแต่ก็ปฏิบัติได้จริง: เพื่อพิจารณาว่า AI ที่รันบนเครื่องเหล่านี้สามารถเปลี่ยนบทสัมภาษณ์ดิบให้เป็นบทความที่ขัดเกลาและพร้อมเผยแพร่ได้หรือไม่ สิ่งนี้เกี่ยวข้องกับการประเมินไม่เพียงแต่ความเป็นไปได้ทางเทคนิค – ฮาร์ดแวร์สามารถรับภาระได้หรือไม่? – แต่ยังรวมถึงผลลัพธ์เชิงคุณภาพด้วย – ข้อความที่ได้นั้นใช้งานได้หรือไม่? สิ่งสำคัญคือต้องระบุไว้ล่วงหน้าว่าการบรรลุบทความอัตโนมัติเต็มรูปแบบและพร้อมเผยแพร่นั้นพิสูจน์แล้วว่าทำได้ยาก เป้าหมายหลักเปลี่ยนไปสู่การทำความเข้าใจความสามารถและข้อจำกัดที่แท้จริงของ AI บนอุปกรณ์ในปัจจุบันผ่านกรณีการใช้งานเฉพาะที่ต้องการนี้

วิธีการที่เลือกใช้มุ่งเน้นไปที่ prompt ขนาดใหญ่ ซึ่งรวมถึงประมาณ 1,500 โทเค็น (ประมาณ 6,000 ตัวอักษร หรือข้อความสองหน้าเต็ม) ที่ร่างโครงสร้างบทความ สไตล์ และน้ำเสียงที่ต้องการอย่างพิถีพิถัน เพิ่มเติมจากชุดคำสั่งนี้คือตัวบทสัมภาษณ์เอง ซึ่งมีค่าเฉลี่ยประมาณ 11,000 โทเค็น สำหรับการสนทนาทั่วไป 45 นาที ขนาดที่แท้จริงของอินพุตรวมนี้ (มักเกิน 12,500 โทเค็น) โดยทั่วไปจะเกินขีดจำกัดการใช้งานฟรีของแพลตฟอร์ม AI ออนไลน์จำนวนมาก ข้อจำกัดนี้เน้นย้ำถึงเหตุผลในการสำรวจการปรับใช้ในเครื่อง ซึ่งการประมวลผลยังคงฟรีโดยไม่คำนึงถึงขนาดอินพุต จำกัดโดยความสามารถของเครื่องเท่านั้น

การดำเนินการทดสอบเหล่านี้เกี่ยวข้องกับการใช้ LM Studio ซึ่งเป็นซอฟต์แวร์ชุมชนยอดนิยมที่ให้อินเทอร์เฟซคล้ายแชทบอทที่ใช้งานง่ายสำหรับการโต้ตอบกับ LLMs ที่ทำงานในเครื่อง LM Studio รวมฟังก์ชันสำหรับการดาวน์โหลดเวอร์ชันโมเดลต่างๆ ได้อย่างสะดวก แม้ว่าแหล่งที่มาหลักสำหรับโมเดลที่ให้บริการฟรีเหล่านี้ยังคงเป็น Hugging Face repository ซึ่งเป็นศูนย์กลางสำหรับชุมชน AI

การนำทางในเขาวงกตทางเทคนิค: ฮาร์ดแวร์, หน่วยความจำ และขนาดโมเดล

การเดินทางสู่การประมวลผล AI ในเครื่องเผยให้เห็นปฏิสัมพันธ์ที่ซับซ้อนระหว่างซอฟต์แวร์และฮาร์ดแวร์อย่างรวดเร็ว คุณภาพและความเร็วของเอาต์พุตของ AI นั้นเชื่อมโยงอย่างใกล้ชิดกับทรัพยากรที่มีอยู่ในเครื่องทดสอบ – Mac ที่ติดตั้ง Apple Silicon M1 Max system-on-chip (SoC) และ RAM ขนาด 64 GB ที่สำคัญ สถาปัตยกรรมนี้มี Unified Memory Architecture (UMA) ซึ่งช่วยให้ RAM ขนาด 48 GB สามารถแชร์แบบไดนามิกระหว่างคอร์ประมวลผล (CPU), คอร์กราฟิก (GPU – ใช้สำหรับการเร่งเวกเตอร์) และคอร์หน่วยประมวลผลประสาท (NPU – ใช้สำหรับการเร่งเมทริกซ์)

ปัจจัยทางเทคนิคที่สำคัญหลายประการกลายเป็นตัวตัดสิน:

  1. พารามิเตอร์โมเดล: LLMs มักวัดจากจำนวนพารามิเตอร์ (โดยทั่วไปเป็นพันล้าน) โมเดลขนาดใหญ่มักมีความรู้และความแตกต่างที่มากกว่า อย่างไรก็ตาม พวกมันต้องการหน่วยความจำที่มากกว่าอย่างมีนัยสำคัญ
  2. Quantization: หมายถึงความแม่นยำที่ใช้ในการจัดเก็บพารามิเตอร์ของโมเดล (เช่น 8-bit, 4-bit, 3-bit) ความแม่นยำบิตที่ต่ำกว่าจะลดขนาดหน่วยความจำลงอย่างมากและเพิ่มความเร็วในการประมวลผล แต่บ่อยครั้งที่ต้องแลกมาด้วยความแม่นยำและคุณภาพของเอาต์พุต (ทำให้เกิดข้อผิดพลาด การซ้ำซ้อน หรือภาษาที่ไม่มีเหตุผล)
  3. Context Window: กำหนดจำนวนข้อมูลสูงสุด (prompt + ข้อมูลอินพุต) ที่ AI สามารถพิจารณาได้ในคราวเดียว วัดเป็นโทเค็น ขนาดหน้าต่างที่ต้องการถูกกำหนดโดยงาน ในกรณีนี้ prompt และบทสัมภาษณ์ขนาดใหญ่จำเป็นต้องใช้หน้าต่างขนาดใหญ่
  4. RAM ที่มีอยู่: จำนวนหน่วยความจำจำกัดโดยตรงว่าโมเดลใด (และที่ระดับ quantization ใด) สามารถโหลดและรันได้อย่างมีประสิทธิภาพ

จุดที่เหมาะสมที่สุด ซึ่งให้ความสมดุลที่ดีที่สุดของคุณภาพและความเป็นไปได้บนเครื่องทดสอบ ณ เวลาที่ประเมิน ทำได้โดยใช้ โมเดล Gemma ของ Google ที่มีพารามิเตอร์ 27 พันล้านตัว ซึ่งถูก quantized เป็น 8 บิต (เวอร์ชัน ‘27B Q8_0’) การกำหนดค่านี้ทำงานภายใน context window ขนาด 32,000 โทเค็น จัดการอินพุตประมาณ 15,000 โทเค็น (คำสั่ง + บทสัมภาษณ์) ได้อย่างสบาย มันทำงานบนฮาร์ดแวร์ Mac ที่ระบุ โดยใช้หน่วยความจำที่ใช้ร่วมกันขนาด 48 GB

ภายใต้เงื่อนไขที่เหมาะสมเหล่านี้ ความเร็วในการประมวลผลวัดได้ที่ 6.82 โทเค็นต่อวินาที แม้ว่าจะใช้งานได้ แต่ก็ยังห่างไกลจากความเร็วทันที การปรับปรุงความเร็วโดยไม่ลดทอนคุณภาพของเอาต์พุตส่วนใหญ่ขึ้นอยู่กับฮาร์ดแวร์ที่เร็วขึ้น – โดยเฉพาะ SoC ที่มีความเร็วสัญญาณนาฬิกาสูงขึ้น (GHz) หรือจำนวนคอร์ประมวลผลที่มากขึ้น (CPU, GPU, NPU)

การพยายามโหลดโมเดลที่มีพารามิเตอร์มากขึ้นอย่างมีนัยสำคัญ (เช่น 32 พันล้าน, 70 พันล้าน) ชนเพดานหน่วยความจำอย่างรวดเร็ว โมเดลขนาดใหญ่เหล่านี้ไม่สามารถโหลดได้ทั้งหมด หรือสร้างเอาต์พุตที่ถูกตัดทอนอย่างรุนแรงและใช้งานไม่ได้ (เช่น ย่อหน้าเดียวแทนที่จะเป็นบทความเต็ม) ในทางกลับกัน การใช้โมเดลที่มีพารามิเตอร์น้อยลง แม้ว่าจะเพิ่มหน่วยความจำ แต่ก็ส่งผลให้คุณภาพการเขียนลดลงอย่างเห็นได้ชัด ซึ่งมีลักษณะเฉพาะคือการซ้ำซ้อนและความคิดที่แสดงออกมาไม่ดี ในทำนองเดียวกัน การใช้ quantization ที่รุนแรงขึ้น (ลดพารามิเตอร์เหลือ 3, 4, 5 หรือ 6 บิต) ช่วยเพิ่มความเร็ว แต่ทำให้เอาต์พุตเสื่อมโทรมลงอย่างรุนแรง ทำให้เกิดข้อผิดพลาดทางไวยากรณ์และแม้แต่คำที่สร้างขึ้นเอง

ขนาดของ context window ที่ต้องการ ซึ่งกำหนดโดยข้อมูลอินพุตนั้น โดยพื้นฐานแล้วไม่สามารถต่อรองได้สำหรับงานนี้ หากข้อมูลอินพุตต้องการหน้าต่างที่เมื่อรวมกับขนาดโมเดลและ quantization ที่เลือกแล้ว เกิน RAM ที่มีอยู่ ทางเลือกเดียวคือการเลือกโมเดลที่เล็กกว่า ซึ่งหลีกเลี่ยงไม่ได้ที่จะลดทอนคุณภาพที่เป็นไปได้ของผลลัพธ์สุดท้ายเพื่อให้อยู่ในขีดจำกัดของหน่วยความจำ

การแสวงหาคุณภาพ: เมื่อโครงสร้างพบกับเนื้อหา (หรือการขาดหายไป)

AI ที่รันบนเครื่องประสบความสำเร็จในการสร้างบทความที่ใช้งานได้หรือไม่? ใช่และไม่ใช่ ข้อความที่สร้างขึ้นมักแสดงโครงสร้างที่ดีอย่างน่าประหลาดใจ โดยทั่วไปแล้วจะปฏิบัติตามรูปแบบที่ร้องขอ โดยมี:

  • มุมมองหรือจุดสนใจที่มองเห็นได้
  • การไหลที่สอดคล้องกันผ่านส่วนต่างๆ ตามหัวข้อ
  • การอ้างอิงคำพูดจากบทสัมภาษณ์ที่วางไว้อย่างเหมาะสม
  • หัวข้อข่าวที่น่าสนใจและประโยคสรุป

อย่างไรก็ตาม ข้อบกพร่องที่สำคัญเกิดขึ้นอย่างสม่ำเสมอใน LLMs ที่ทดสอบทั้งหมด รวมถึงโมเดลอย่าง DeepSeek R1 ซึ่งออกแบบมาโดยเฉพาะสำหรับการให้เหตุผลที่ปรับปรุงแล้ว: ความไม่สามารถโดยพื้นฐานในการแยกแยะและจัดลำดับความสำคัญของ ความเกี่ยวข้อง ของข้อมูลภายในบทสัมภาษณ์ได้อย่างถูกต้อง โมเดล AI พลาดประเด็นสำคัญของการสนทนาอย่างต่อเนื่อง โดยมุ่งเน้นไปที่ประเด็นรองหรือรายละเอียดที่ไม่เกี่ยวข้อง

ผลลัพธ์ที่ได้มักเป็นบทความที่ถูกต้องตามหลักไวยากรณ์และมีการจัดระเบียบที่ดี แต่ท้ายที่สุดแล้วก็ผิวเผินและไม่น่าสนใจ ในบางกรณี AI จะอุทิศเนื้อหาที่โต้แย้งอย่างดีและมีความยาวเพื่อระบุสิ่งที่ชัดเจนอยู่แล้ว – ตัวอย่างเช่น การอธิบายอย่างละเอียดว่าบริษัทที่ให้สัมภาษณ์ดำเนินงานในตลาดที่มีคู่แข่ง สิ่งนี้เน้นให้เห็นถึงช่องว่างระหว่างความสามารถทางภาษา (การสร้างประโยคที่สอดคล้องกัน) และความเข้าใจที่แท้จริง (การทำความเข้าใจความสำคัญและบริบท)

นอกจากนี้ ผลลัพธ์ด้านสไตล์ยังแตกต่างกันอย่างมากระหว่างโมเดล:

  • Llama 3.x ของ Meta: ณ เวลาที่ทดสอบ สร้างประโยคที่มักจะซับซ้อนและแยกวิเคราะห์ได้ยาก
  • Mistral Models & Gemma: แสดงแนวโน้มไปทางสไตล์ ‘ภาษาการตลาด’ โดยใช้คำคุณศัพท์ที่ฟุ่มเฟือยและการวางกรอบในเชิงบวก แต่ขาดเนื้อหาที่เป็นรูปธรรมและรายละเอียดเฉพาะ
  • Qwen ของ Alibaba: น่าประหลาดใจที่ภายใต้ข้อจำกัดของการตั้งค่าการทดสอบ โมเดลจีนนี้สร้างร้อยแก้วที่สวยงามที่สุดบางส่วนในภาษาฝรั่งเศส (ภาษาของทีมประเมินผลดั้งเดิม)
  • Mixtral 8x7B: ในตอนแรก โมเดล ‘mixture of experts’ นี้ (รวมโมเดลขนาดเล็กที่เชี่ยวชาญเฉพาะทาง 8 โมเดล ขนาด 7 พันล้านพารามิเตอร์) แสดงให้เห็นถึงศักยภาพ อย่างไรก็ตาม การทำให้พอดีกับข้อจำกัดหน่วยความจำ 48 GB จำเป็นต้องใช้ quantization 3 บิตที่รุนแรง ซึ่งนำไปสู่ข้อผิดพลาดทางไวยากรณ์ที่สำคัญ เวอร์ชัน quantized 4 บิต (‘Q4_K_M’) ให้การประนีประนอมที่ดีกว่าในตอนแรก แต่การอัปเดตซอฟต์แวร์ LM Studio ในภายหลังได้เพิ่มการใช้หน่วยความจำ ทำให้การกำหนดค่านี้สร้างผลลัพธ์ที่ถูกตัดทอนเช่นกัน
  • Mistral Small 3.1: โมเดลล่าสุดที่มีพารามิเตอร์ 24 พันล้านตัวที่ quantization 8 บิต กลายเป็นคู่แข่งที่แข็งแกร่ง คุณภาพของเอาต์พุตใกล้เคียงกับโมเดล Gemma 27B และมีความได้เปรียบด้านความเร็วเล็กน้อย โดยประมวลผลที่ 8.65 โทเค็นต่อวินาที

ความแปรปรวนนี้เน้นย้ำว่าการเลือก LLM ไม่ใช่แค่เรื่องขนาดหรือความเร็วเท่านั้น ข้อมูลการฝึกอบรมพื้นฐานและสถาปัตยกรรมมีอิทธิพลอย่างมากต่อสไตล์การเขียนและอคติที่อาจเกิดขึ้น

สถาปัตยกรรมฮาร์ดแวร์: ฮีโร่ที่ถูกมองข้ามของ AI บนเครื่อง

การทดลองได้ให้ความกระจ่างเกี่ยวกับปัจจัยสำคัญที่มักถูกมองข้าม: สถาปัตยกรรมฮาร์ดแวร์พื้นฐาน โดยเฉพาะวิธีการเข้าถึงหน่วยความจำ ประสิทธิภาพที่เหนือกว่าที่สังเกตได้บน Apple Silicon Mac ไม่ได้เกิดจากปริมาณ RAM เพียงอย่างเดียว แต่ขึ้นอยู่กับ Unified Memory Architecture (UMA) อย่างยิ่งยวด

ในระบบ UMA คอร์ CPU, GPU และ NPU ทั้งหมดใช้พูล RAM ทางกายภาพเดียวกันและสามารถเข้าถึงข้อมูลที่แอดเดรสหน่วยความจำเดียวกันได้พร้อมกัน สิ่งนี้ช่วยลดความจำเป็นในการคัดลอกข้อมูลระหว่างพูลหน่วยความจำแยกต่างหากที่จัดสรรให้กับโปรเซสเซอร์ต่างๆ (เช่น RAM ของระบบสำหรับ CPU และ VRAM เฉพาะสำหรับการ์ดกราฟิกแยก)

ทำไมสิ่งนี้จึงสำคัญสำหรับ LLMs?

  • ประสิทธิภาพ: การประมวลผล LLM เกี่ยวข้องกับการคำนวณอย่างเข้มข้นในคอร์ประเภทต่างๆ UMA ช่วยให้สามารถแชร์ข้อมูลได้อย่างราบรื่น ลดเวลาแฝงและค่าใช้จ่ายที่เกี่ยวข้องกับการทำซ้ำและการถ่ายโอนข้อมูล
  • การใช้หน่วยความจำ: ในระบบ ที่ไม่มี UMA (เช่น PC ทั่วไปที่มี GPU แยก) ข้อมูลเดียวกันอาจต้องถูกโหลดทั้งใน RAM ของระบบหลัก (สำหรับ CPU) และ VRAM ของ GPU สิ่งนี้ลดหน่วยความจำที่ใช้งานได้สำหรับ LLM เองอย่างมีประสิทธิภาพ

ผลกระทบในทางปฏิบัติมีความสำคัญอย่างยิ่ง ในขณะที่ Mac ที่ใช้ทดสอบสามารถรันโมเดล 27 พันล้านพารามิเตอร์ที่ quantized 8 บิตได้อย่างสบายโดยใช้ RAM UMA ที่ใช้ร่วมกัน ขนาด 48 GB การบรรลุประสิทธิภาพที่คล้ายคลึงกันบน PC ที่ไม่มี UMA อาจต้องใช้ RAM ทั้งหมด มากกว่าอย่างมาก ตัวอย่างเช่น PC ที่มี RAM ทั้งหมด 48 GB แบ่งเป็น 24 GB สำหรับ CPU และ 24 GB สำหรับ GPU อาจสามารถรันโมเดล 13 พันล้านพารามิเตอร์ที่เล็กกว่ามากได้อย่างมีประสิทธิภาพเท่านั้น เนื่องจากค่าใช้จ่ายในการแบ่งพาร์ติชันหน่วยความจำและการทำซ้ำข้อมูล

ข้อได้เปรียบทางสถาปัตยกรรมนี้อธิบายถึงความเป็นผู้นำในช่วงแรกที่ Mac ที่มีชิป Apple Silicon ได้รับในพื้นที่ AI บนเครื่อง ด้วยตระหนักถึงสิ่งนี้ คู่แข่งอย่าง AMD ได้ประกาศกลุ่มผลิตภัณฑ์ Ryzen AI Max SoC (คาดว่าจะเปิดตัวต้นปี 2025) ที่ออกแบบมาเพื่อรวมแนวทางหน่วยความจำแบบรวมที่คล้ายคลึงกัน ณ เวลาของการทดสอบเหล่านี้ Intel’s Core Ultra SoCs แม้ว่าจะรวม CPU, GPU และ NPU แต่ก็ไม่ได้มีระดับการเข้าถึงหน่วยความจำแบบรวมอย่างสมบูรณ์ในคอร์ทุกประเภทเหมือนกัน ความแตกต่างด้านฮาร์ดแวร์นี้เป็นข้อพิจารณาที่สำคัญสำหรับทุกคนที่จริงจังกับการรัน LLMs ที่ใหญ่ขึ้นและมีความสามารถมากขึ้นในเครื่อง

การเต้นรำอันซับซ้อนของ Prompt Engineering

การทำให้ AI ทำงานที่ซับซ้อน เช่น การเปลี่ยนบทสัมภาษณ์ให้เป็นบทความ ต้องการมากกว่าแค่ฮาร์ดแวร์ที่ทรงพลังและโมเดลที่มีความสามารถ มันต้องการคำสั่งที่ซับซ้อน – ศิลปะและศาสตร์ของ prompt engineering การสร้าง prompt เริ่มต้น 1,500 โทเค็นที่ชี้นำ AI เป็นงานที่สำคัญ

จุดเริ่มต้นที่มีประโยชน์เกี่ยวข้องกับ วิศวกรรมย้อนกลับ (reverse engineering): ป้อนบทความที่เขียนโดยมนุษย์ที่เสร็จสมบูรณ์แล้วพร้อมกับบทสัมภาษณ์ที่เกี่ยวข้องให้กับ AI และถามว่า ควร ให้ prompt ใดเพื่อให้ได้ผลลัพธ์นั้น การวิเคราะห์ข้อเสนอแนะของ AI จากตัวอย่างที่หลากหลายหลายตัวอย่างช่วยระบุองค์ประกอบที่จำเป็นสำหรับชุดคำสั่ง

อย่างไรก็ตาม ข้อเสนอแนะ prompt ที่สร้างโดย AI นั้นสั้นเกินไปอย่างสม่ำเสมอและขาดรายละเอียดที่จำเป็นในการชี้นำการสร้างบทความที่ครอบคลุม งานที่แท้จริงอยู่ที่การนำแนวคิดเริ่มต้นที่ AI ให้มาเหล่านี้ไปขยายความ ฝังความรู้เชิงลึกเกี่ยวกับโครงสร้าง น้ำเสียง สไตล์ และข้อควรพิจารณาทางจริยธรรมของนักข่าว

บทเรียนที่ไม่เป็นไปตามสัญชาตญาณหลายประการเกิดขึ้น:

  • ความชัดเจนเหนือความสละสลวย: น่าแปลกที่การเขียน prompt ในสไตล์ที่เป็นธรรมชาติและลื่นไหลมากขึ้นมักจะ ลด ความเข้าใจของ AI โมเดลมีปัญหากับความคลุมเครือ โดยเฉพาะคำสรรพนาม (‘เขา’, ‘มัน’, ‘สิ่งนี้’) แนวทางที่มีประสิทธิภาพที่สุดเกี่ยวข้องกับการเสียสละความสามารถในการอ่านของมนุษย์เพื่อความแม่นยำของเครื่องจักร โดยการกล่าวซ้ำประธานอย่างชัดเจน (‘บทความควร…’, ‘น้ำเสียงของบทความต้อง…’, ‘บทนำของบทความต้องการ…’) เพื่อหลีกเลี่ยงการตีความที่ผิดพลาดที่อาจเกิดขึ้น
  • ธรรมชาติที่เข้าใจยากของความคิดสร้างสรรค์: แม้จะมีการออกแบบ prompt อย่างระมัดระวังโดยมุ่งเป้าไปที่การให้ความยืดหยุ่น แต่บทความที่สร้างโดย AI ก็มีความคล้ายคลึงกัน (‘family resemblance’) อย่างสม่ำเสมอ การจับความกว้างของความคิดสร้างสรรค์และความหลากหลายทางสไตล์ของมนุษย์ภายใน prompt เดียว หรือแม้แต่ prompt ที่แข่งขันกันหลายรายการ พิสูจน์แล้วว่ายากเป็นพิเศษ ความหลากหลายที่แท้จริงดูเหมือนจะต้องมีการเปลี่ยนแปลงพื้นฐานมากกว่าที่การปรับแต่ง prompt เพียงอย่างเดียวจะทำได้

Prompt engineering ไม่ใช่งานที่ทำครั้งเดียว แต่เป็นกระบวนการวนซ้ำของการปรับปรุง ทดสอบ และรวมตรรกะทางธุรกิจเฉพาะและรายละเอียดปลีกย่อยทางสไตล์ มันต้องการการผสมผสานระหว่างความเข้าใจทางเทคนิคและความเชี่ยวชาญในเรื่องนั้นๆ อย่างลึกซึ้ง

การเปลี่ยนแปลงภาระงาน: การแกะกล่อง AI Paradox

การทดลองในที่สุดนำไปสู่การตระหนักรู้ที่สำคัญ ซึ่งเรียกว่า AI paradox: ในสถานะปัจจุบัน เพื่อให้ AI สามารถลดภาระงานของผู้ใช้บางส่วนได้ (การเขียนร่างบทความ) ผู้ใช้มักจะต้องลงทุนงานเบื้องต้น มากขึ้น

ปัญหาหลักยังคงอยู่ที่ความไม่สามารถของ AI ในการวัดความเกี่ยวข้องภายในบทสัมภาษณ์ดิบได้อย่างน่าเชื่อถือ เพื่อสร้างบทความที่ตรงประเด็น การป้อนบทสัมภาษณ์ทั้งหมดเพียงอย่างเดียวไม่เพียงพอ ขั้นตอนกลางที่จำเป็นเกิดขึ้น: การประมวลผลบทสัมภาษณ์ล่วงหน้าด้วยตนเอง สิ่งนี้เกี่ยวข้องกับ:

  1. การตัดบทสนทนาที่ไม่เกี่ยวข้อง การออกนอกเรื่อง และความซ้ำซ้อนออกไป
  2. อาจมีการเพิ่มบันทึกบริบท (แม้ว่าจะไม่ได้มีไว้สำหรับบทความสุดท้าย) เพื่อชี้นำความเข้าใจของ AI
  3. การเลือกอย่างระมัดระวังและอาจจัดลำดับส่วนสำคัญใหม่

‘การดูแลจัดการ’ บทสัมภาษณ์นี้ต้องใช้เวลาและการตัดสินใจของมนุษย์อย่างมาก เวลาที่ประหยัดได้จากการให้ AI สร้างร่างแรกถูกชดเชยอย่างมีประสิทธิภาพ หรือแม้กระทั่งมากกว่านั้น ด้วยงานใหม่ในการเตรียมข้อมูลอินพุตอย่างพิถีพิถัน ภาระงานไม่ได้หายไป มันเพียงแค่เปลี่ยนจากการเขียนโดยตรงไปสู่การเตรียมข้อมูลและการปรับแต่ง prompt

นอกจากนี้ prompt ขนาด 1,500 โทเค็นที่มีรายละเอียดนั้นมีความเฉพาะเจาะจงอย่างมากกับบทความ ประเภทเดียว (เช่น บทสัมภาษณ์เกี่ยวกับการเปิดตัวผลิตภัณฑ์) การครอบคลุมรูปแบบบทความที่หลากหลายที่นักข่าวผลิตทุกวัน – โปรไฟล์สตาร์ทอัพ การวิเคราะห์เชิงกลยุทธ์ การรายงานข่าวเหตุการณ์ การสืบสวนจากหลายแหล่ง – จะต้องมีการพัฒนา ทดสอบ และบำรุงรักษา prompt ที่มีรายละเอียดเท่าเทียมกันแยกต่างหากสำหรับ แต่ละ กรณีการใช้งาน สิ่งนี้แสดงถึงการลงทุนด้านวิศวกรรมล่วงหน้าและต่อเนื่องจำนวนมาก

ที่แย่ไปกว่านั้น การทดลองที่กว้างขวางเหล่านี้ ซึ่งกินเวลากว่าหกเดือน เป็นเพียงการเริ่มต้นเท่านั้น พวกเขามุ่งเน้นไปที่สถานการณ์ที่ง่ายที่สุด: การสร้างบทความจากบทสัมภาษณ์ เดียว ซึ่งมักดำเนินการในสภาพแวดล้อมที่มีการควบคุม เช่น การแถลงข่าว ซึ่งประเด็นของผู้ให้สัมภาษณ์มีการจัดโครงสร้างอยู่บ้างแล้ว งานที่ซับซ้อนกว่ามาก แต่เป็นเรื่องปกติ เช่น การสังเคราะห์ข้อมูลจากบทสัมภาษณ์หลายรายการ การรวมงานวิจัยภูมิหลัง หรือการจัดการกับการสนทนาที่มีโครงสร้างน้อยกว่า ยังคงไม่ถูกสำรวจเนื่องจากการลงทุนด้านเวลาที่จำเป็นแม้กระทั่งสำหรับกรณีพื้นฐาน

ดังนั้น ในขณะที่การรัน LLMs ในเครื่องนั้นเป็นไปได้ทางเทคนิคและให้ประโยชน์ในแง่ของต้นทุนและความเป็นส่วนตัวของข้อมูล แนวคิดที่ว่ามันช่วยประหยัดเวลาหรือความพยายามสำหรับงานความรู้ที่ซับซ้อนอย่างการทำข่าวได้อย่างง่ายดายนั้น จากการตรวจสอบนี้ ถือเป็นภาพลวงตาในปัจจุบัน ความพยายามที่จำเป็นเพียงแค่เปลี่ยนรูปแบบ ย้ายไปสู่ขั้นตอนต้นน้ำในการเตรียมข้อมูลและ prompt engineering ที่เฉพาะเจาะจงอย่างยิ่ง ในความท้าทายเฉพาะเหล่านี้ – การแยกแยะความเกี่ยวข้อง การต้องมีการประมวลผลล่วงหน้าอย่างกว้างขวาง – AI ที่รันบนเครื่องทำงานได้เทียบเท่ากับบริการออนไลน์แบบชำระเงิน ซึ่งชี้ให้เห็นว่าสิ่งเหล่านี้เป็นข้อจำกัดพื้นฐานของ LLMs รุ่นปัจจุบัน โดยไม่คำนึงถึงวิธีการปรับใช้ เส้นทางสู่ความช่วยเหลือจาก AI ที่ราบรื่นอย่างแท้จริงในโดเมนดังกล่าวยังคงซับซ้อนและต้องการการพัฒนาต่อไปทั้งในด้านความสามารถของ AI และวิธีการโต้ตอบของเรากับพวกมัน