ด้วยการเปิดตัว Opus 4 และ Sonnet 4 ของ Anthropic ทำให้ขอบเขตของปัญญาประดิษฐ์ได้ก้าวกระโดดไปอีกขั้น โมเดลเหล่านี้ได้รับการเผยแพร่เมื่อสัปดาห์ที่แล้ว และได้รับความสนใจอย่างรวดเร็ว โดยสร้างมาตรฐานใหม่ โดยเฉพาะอย่างยิ่งในโดเมนการเขียนโค้ดที่สำคัญ นอกเหนือจากความสามารถในการเขียนโค้ดแล้ว Opus 4 และ Sonnet 4 ยังแสดงให้เห็นถึงความสามารถที่แข็งแกร่งในการให้เหตุผลและฟังก์ชันการทำงานแบบ Agent ซึ่งทำให้พวกเขากลายเป็นความก้าวหน้าที่สำคัญในภูมิทัศน์ AI ร่วมสมัย
Opus 4 ยืนหยัดในฐานะผลงานสร้างสรรค์ที่ซับซ้อนที่สุดของ Anthropic จนถึงปัจจุบัน ซึ่งบริษัทได้ยกย่องว่าเป็นโมเดลที่มีประสิทธิภาพสูงสุด และยืนยันตำแหน่งของตนในฐานะ \“โมเดลการเขียนโค้ดที่ดีที่สุดในโลก\” นอกเหนือจาก Opus 4 แล้ว Sonnet 4 ยังกลายเป็นทางเลือกที่ประหยัดกว่า ซึ่งได้รับการออกแบบมาเพื่อให้เกิดความสมดุลที่เหมาะสมที่สุดระหว่างประสิทธิภาพที่เหนือกว่าและต้นทุนที่คุ้มค่า การนำเสนอแบบคู่เชิงกลยุทธ์นี้ตอบสนองผู้ใช้ในวงกว้าง ตั้งแต่ผู้ที่ต้องการประสิทธิภาพสูงสุดไปจนถึงผู้ที่กำลังมองหาโซลูชันที่เป็นมิตรกับงบประมาณมากกว่า
การปรับปรุงที่แนะนำใน Opus 4 และ Sonnet 4 นั้นน่าสังเกต จุดเด่นหลักคือความสามารถในการเขียนโค้ดที่ได้รับการปรับปรุง Opus 4 ได้แสดงให้เห็นถึงความเป็นผู้นำในเกณฑ์มาตรฐานที่สำคัญแล้ว รวมถึง SWE-bench และ Terminal-bench ในขณะที่ Sonnet แสดงให้เห็นถึงความสามารถที่คล้ายคลึงกัน การก้าวกระโดดในประสิทธิภาพการเขียนโค้ดนี้ตอกย้ำถึงความสำคัญที่เพิ่มขึ้นของ AI ในการพัฒนาซอฟต์แวร์
นอกเหนือจากการปรับปรุงประสิทธิภาพแล้ว Anthropic ยังให้ความสำคัญกับความปลอดภัยเป็นอันดับแรก Opus 4 ได้รวม ASL-3 หรือ AI Safety Level 3 protections มาตรการนี้มาจาก \“Responsible Scaling Policy\” ของ Anthropic Anthropic ก่อตั้งโดยอดีตพนักงาน OpenAI ที่มีความกังวลเกี่ยวกับความปลอดภัย ได้เน้นย้ำถึงนวัตกรรมอย่างต่อเนื่องด้วยข้อควรพิจารณาด้านความปลอดภัยที่แข็งแกร่ง
การเปิดตัว Opus 4 และ Sonnet 4 ได้รับผลตอบรับเชิงบวกโดยทั่วไปจากนักพัฒนาและผู้ใช้ ความสามารถในการเขียนโค้ดที่ได้รับการปรับปรุงได้รับการยกย่องว่าเป็นก้าวสำคัญสู่ระบบ AI ที่เป็นอิสระหรือแบบ Agent โครงสร้างราคา ซึ่งสะท้อนถึงรุ่นก่อนๆ โดยนำเสนอทั้งตัวเลือกพรีเมียมและตัวเลือกที่คุ้มค่า ก็ได้รับการตอบรับเป็นอย่างดีเช่นกัน
การเปิดตัว Opus 4 ไม่ได้ปราศจากข้อโต้แย้ง นักวิจัยของ Anthropic เปิดเผยว่า Opus สามารถติดต่อหน่วยงานได้ หากพิจารณาว่าพฤติกรรมของผู้ใช้ไม่เหมาะสม แม้ว่านักวิจัยจะชี้แจงในภายหลังว่าเป็นไปไม่ได้ในการใช้งานตามปกติ แต่ก็ก่อให้เกิดความกังวลในหมู่ผู้ใช้เกี่ยวกับระดับความเป็นอิสระที่อาจฝังอยู่ในโมเดล
สาขา AI มีการประกาศโมเดลที่ก้าวกระโดดอยู่บ่อยครั้ง ซึ่งแต่ละโมเดลต่างก็พยายามช่วงชิงตำแหน่ง \“ดีที่สุดในโลก\” การเปิดตัวล่าสุด ได้แก่ Gemini-2.5-Pro ของ Google, GPT-4.5 และ GPT-4.1 ของ OpenAI, Grok 3 ของ xAI และ Qwen 2.5 และ QwQ-32B ของ Alibaba ซึ่งทั้งหมดนี้มีประสิทธิภาพเกณฑ์มาตรฐานที่ยอดเยี่ยม
เมื่อพิจารณาถึงภูมิทัศน์ของการอ้างสิทธิ์ในการแข่งขันนี้ จึงเป็นเรื่องที่เกี่ยวข้องที่จะตรวจสอบว่า Claude 4 ครองตำแหน่งสูงสุดอย่างแท้จริงหรือไม่ การเจาะลึกลงไปในความสามารถ ประสิทธิภาพเกณฑ์มาตรฐาน แอปพลิเคชัน และผลตอบรับจากผู้ใช้ อาจเป็นไปได้ที่จะตรวจสอบคำตอบสำหรับคำถามนี้
Opus 4: สุดยอดขุมพลังแห่งการเขียนโค้ด
Opus 4 เป็นโมเดลที่ล้ำสมัยที่สุดของ Anthropic ออกแบบมาสำหรับงานที่ซับซ้อนและใช้เวลานาน เหมาะสำหรับวิศวกรรมซอฟต์แวร์ที่เป็นอิสระ การวิจัย และเวิร์กโฟลว์แบบ Agent ซึ่งทั้งหมดนี้ต้องใช้เครื่องมือระดับพรีเมียม Opus 4 ถูกวางตำแหน่งให้เป็น \“โมเดลการเขียนโค้ดที่ดีที่สุดในโลก\”
ความสามารถหลักและการปรับปรุง
Opus 4 มีความสามารถขั้นสูง สิ่งที่น่าสังเกตมีดังนี้:
- Advanced Coding: Opus 4 มีความโดดเด่นในการดำเนินการ \“งานวิศวกรรมที่ใช้เวลานานหลายวัน\” โดยอัตโนมัติ โมเดลจะปรับให้เข้ากับสไตล์ของนักพัฒนาซอฟต์แวร์โดยเฉพาะด้วย \“รสชาติโค้ดที่ได้รับการปรับปรุง\” และรองรับโทเค็นเอาต์พุตสูงสุด 32,000 โทเค็น Claude Code engine เบื้องหลังจะจัดการงานต่างๆ
- Advanced Reasoning & Complex Problem Solving: ด้วยระบบการให้เหตุผลแบบไฮบริดที่สลับไปมาระหว่างการตอบสนองทันทีและการคิดที่ลึกซึ้งและขยาย Opus 4 จะรักษาโฟกัสไว้ได้ตลอดลำดับที่ยาวนาน
- Agentic Capabilities: Opus 4 ช่วยให้ Agent AI ที่ซับซ้อนและแสดงให้เห็นถึงประสิทธิภาพที่ล้ำสมัย (SOTA) รองรับเวิร์กโฟลว์ขององค์กรและการจัดการแคมเปญแบบอิสระ
- Creative Writing & Content Creation: Opus 4 สร้างงานเขียนร้อยแก้วที่ละเอียดอ่อนในระดับมนุษย์ด้วยคุณภาพสไตล์ที่ยอดเยี่ยม ทำให้เหมาะสำหรับงานสร้างสรรค์ขั้นสูง
- Memory & Long-Context Awareness: Opus 4 สร้างและใช้ "ไฟล์หน่วยความจำ" ซึ่งช่วยเพิ่มความสอดคล้องกันตลอดงานที่ยาวนาน เช่น การเขียนคู่มือเกมขณะเล่นPokémon
- Agentic Search & Research: Opus 4 สามารถดำเนินการวิจัยได้หลายชั่วโมงและสังเคราะห์ข้อมูลเชิงลึกจากข้อมูลที่ซับซ้อน เช่น สิทธิบัตรและเอกสารทางวิชาการ
ไฮไลท์ประสิทธิภาพเกณฑ์มาตรฐาน
Opus 4 ได้แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่า พิจารณาเกณฑ์มาตรฐานต่อไปนี้:
SWE-bench Verified (Coding): 73.2%
- SWE-bench ทดสอบความสามารถของระบบAIในการแก้ปัญหาGitHub
- o3 ของ OpenAI: 69.1% Gemini-2.5-Pro ของ Google: 63.8%
Terminal-bench (CLI Coding): 43.2% (50.0% high-compute)
- Terminal-bench วัดความสามารถของ Agent AI ในสภาพแวดล้อม Terminal
- Claude Sonnet 3.7: 35.2% และ GPT-4.1 ของ OpenAI: 30.3%
MMLU (General Knowledge): 88.8%
- MMLU-Pro ออกแบบมาเพื่อประเมิน Model เข้าใจภาษาในวงกว้างและงานที่ท้าทายมากขึ้น
- GPT-o1 และ GPT-4.5 ของ OpenAI ทำคะแนนได้ 89.3% และ 86.1% ตามลำดับ Gemini-2.5-Pro-Experimental: 84.5%
GPQA Diamond (Graduate Reasoning): 79.6% (83.3% high-compute)
- GPQA ประเมินคุณภาพและความน่าเชื่อถือในด้านวิทยาศาสตร์
- Grok 3: 84.6% Gemini-2.5-Pro: 84% o3: 83.3%
AIME (Math): 75.5% (90.0% high-compute)
- AIME 2024 ประเมินประสิทธิภาพทางคณิตศาสตร์ของโรงเรียนมัธยม
- Gemini-2.5-Pro: 92%, GPT-o1: 79.2% Nemotron Ultra ของ Nvidia: 80.1%
HumanEval (Coding): Record-high claims
* HumanEval คือชุดข้อมูลที่พัฒนาโดย OpenAI เพื่อประเมินความสามารถในการสร้าง Code
* Opus 3: 84.9%
TAU-bench: Retail 81.4%
- TAU-bench Retail ประเมิน Agent AI ใน taks ในโดเมนการช็อปปิ้งสำหรับค้าปลีก เช่น การยกเลิกคำสั่งซื้อ การเปลี่ยนแปลงที่อยู่ และการตรวจสอบสถานะคำสั่งซื้อ
- Claude Sonnet 3.7: 72.2% GPT-4.5: 70.4%
MMMU (Visual Reasoning): 76.5%
- การประเมิน Bench ของ MMMU ดำเนินการภายใต้ Zero-shot Setting เพื่อประเมินความสามารถของ Model ในการสร้างคำตอบที่ถูกต้องโดยไม่ต้องปรับแต่งอย่างละเอียดหรือการสาธิต Few-shot ที่ Benchmak
- Gemini-2.5-Pro: 84% o3: 82.9%
Max Continuous Task: Over 7 hours
แอปพลิเคชัน
Opus 4 มีความโดดเด่นในการปรับปรุงซอฟต์แวร์ขั้นสูง การสังเคราะห์การวิจัย และงานที่ซับซ้อน เช่น การสร้างแบบจำลองทางการเงิน หรือการแปลงข้อความเป็น SQL สามารถขับเคลื่อน Agent อิสระแบบหลายขั้นตอนและเวิร์กโฟลว์ในระยะยาว โดยมีหน่วยความจำที่แข็งแกร่ง
Sonnet 4: สร้างสมดุลระหว่างประสิทธิภาพและความสามารถในการปฏิบัติจริง
Claude 4 Sonnet มอบประสิทธิภาพ ความคุ้มค่า และความสามารถในการเขียนโค้ด ได้รับการออกแบบมาสำหรับการปรับใช้ AI ในระดับองค์กรที่ต้องการความฉลาดและความสามารถในการจ่าย
ความสามารถหลักและการปรับปรุง
Sonnet 4 มีประโยชน์หลักหลายประการ:
- Coding: เหมาะสำหรับเวิร์กโฟลว์แบบ Agent Sonnet 4 รองรับโทเค็นเอาต์พุตสูงสุด 64,000 โทเค็นและได้รับการคัดเลือกให้ขับเคลื่อน Agent Copilot ของ GitHub ช่วยเหลือในวงจรชีวิตซอฟต์แวร์: การวางแผน การแก้ไขข้อผิดพลาด การบำรุงรักษา และการปรับปรุงขนาดใหญ่
- Reasoning & Instruction Following: มีความโดดเด่นในด้านการโต้ตอบที่เหมือนมนุษย์ การเลือกเครื่องมือที่เหนือกว่า และการแก้ไขข้อผิดพลาด Sonnet เหมาะอย่างยิ่งสำหรับบทบาท Chatbot ขั้นสูงและผู้ช่วย AI
- Computer Use: Sonnet สามารถใช้GUIและโต้ตอบกับอินเทอร์เฟซดิจิทัล การพิมพ์ การคลิก และการตีความข้อมูล
- Visual Data Extraction: แยกข้อมูลจากรูปแบบภาพที่ซับซ้อน เช่น ชาร์ตและไดอะแกรม พร้อมความสามารถในการดึงข้อมูลตาราง
- Content Generation & Analysis: มีความโดดเด่นในการเขียนและการวิเคราะห์เนื้อหาที่ละเอียดอ่อน ทำให้เป็นตัวเลือกที่แข็งแกร่งสำหรับเวิร์กโฟลว์ด้านบรรณาธิการและการวิเคราะห์
- Robotic Process Automation (RPA): Sonnet มีประสิทธิภาพในกรณีการใช้งาน RPA เนื่องจากการปฏิบัติตามคำแนะนำที่แม่นยำสูง
- Self-Correction: Sonnet จดจำและแก้ไขข้อผิดพลาดของตนเอง ซึ่งช่วยเพิ่มความน่าเชื่อถือในระยะยาว
ไฮไลท์ประสิทธิภาพเกณฑ์มาตรฐาน
Sonnet 4 ได้รับคะแนนดังนี้:
SWE-bench Verified: 72.7%
- Opus 4: 73.2%
MMLU: 86.5%
- Opus 4: 88.8%
GPQA Diamond: 75.4%
- Opus 4: 79.5%
TAU-bench: Retail 80.5%
- Opus 4: 81.4%
MMMU: 74.4%
- Opus 4: 76.5%
AIME: 70.5%
- Opus 4: 75.5%
TerminalBench: 35.5%
- Opus 4: 43.2%
Max Continuous Task: ~4 hours, less than the 7+ hours reported for Opus.
Error Reduction: 65% fewer shortcut behaviors vs. Sonnet 3.7
แอปพลิเคชัน
Sonnet 4 เหมาะสำหรับขับเคลื่อน AI Chatbot การวิจัยแบบเรียลไทม์ RPA และการปรับใช้ที่ปรับขนาดได้ ความสามารถในการดึงความรู้จากเอกสาร วิเคราะห์ข้อมูลภาพ และสนับสนุนการพัฒนา ทำให้เป็นผู้ช่วยที่มีความสามารถ
นวัตกรรมสถาปัตยกรรมและคุณสมบัติที่ใช้ร่วมกัน
Opus 4 และ Sonnet 4 มีความก้าวหน้าทางสถาปัตยกรรมที่สำคัญ พวกเขาสนับสนุนหน้าต่างบริบท 200K และมี Reasoning แบบไฮบริด พวกเขาใช้เครื่องมือภายนอกควบคู่ไปกับการ Reasoning ภายใน ด้านเหล่านี้ช่วยปรับปรุงความแม่นยำแบบเรียลไทม์ในงานต่างๆ เช่น การค้นหา การดำเนินการ Code และการวิเคราะห์เอกสาร
Model ยังแสดงพฤติกรรม \“ทางลัด\” น้อยกว่ารุ่นก่อนๆ ซึ่งช่วยเพิ่มความน่าเชื่อถือ ความโปร่งใสได้รับการปรับปรุงผ่านความพร้อมใช้งานของ \“สรุปความคิด\” ที่วิเคราะห์กระบวนการตัดสินใจ
ประสิทธิภาพในโลกแห่งความเป็นจริงและผลตอบรับขององค์กร
ผลตอบรับเกี่ยวกับ Opus 4 เป็นไปในเชิงบวกในหมู่นักเขียนโค้ด ผู้ใช้รายงานเซสชันการเขียนโค้ดที่ยาวนานด้วยความแม่นยำสูง พวกเขายังสังเกตเห็นการแก้ไขข้อผิดพลาดในการลองครั้งแรก เช่นเดียวกับ Flow การเขียนที่ใกล้เคียงมนุษย์
Sonnet 4 ได้รับการยกย่อง โดยเฉพาะอย่างยิ่งจากผู้ใช้ที่เชื่อมต่อกับเครื่องมือสำหรับนักพัฒนาซอฟต์แวร์ เช่น Cursor และ Augment Code ความกังวลยังคงมีอยู่เกี่ยวกับความเข้าใจในเอกสารและความคับข้องใจในขีดจำกัดอัตรา
ผู้ใช้รายใหญ่ ได้แก่ GitHub ซึ่งเรียกSonnet 4 ว่า \“ทะยานในสถานการณ์แบบ Agent\” Replit ชื่นชมความแม่นยำ และ Rakuten และ Block เน้นย้ำถึงผลกำไรด้านประสิทธิภาพ Opus 4 เปิดใช้งานการปรับโครงสร้างฐาน Code Open-source อย่างเต็มรูปแบบเป็นเวลา 7 ชั่วโมง
ข้อโต้แย้งในการเปิดโปง
โพสต์บน X จากนักวิจัยของ Anthropic Sam Bowman เปิดเผยว่า Opus สามารถดำเนินการได้ เช่น การรายงานผู้ใช้ หากพิจารณาว่าพวกเขาผิดศีลธรรม
พฤติกรรมนี้มาจาก Constitutional AI framework ของ Anthropic แม้ว่าเจตนาคือการลดอันตราย แต่นักวิจารณ์โต้แย้งว่าระดับการริเริ่มนี้ โดยเฉพาะอย่างยิ่งเมื่อจับคู่กับความสามารถแบบ Agent และการเข้าถึง Command-line จะสร้างทางลาดลื่น
ความปลอดภัยและความสามารถที่เกิดขึ้นใหม่
Opus 4 ทำงานภายใต้ AI Safety Level 3 ซึ่งเป็นระดับสูงสุดในปัจจุบัน โดยอ้างถึงความกังวลเกี่ยวกับความรู้ในหัวข้อที่ละเอียดอ่อน Red Teamer ทดสอบ Opus และพบพฤติกรรมและความสามารถ \“แตกต่างในเชิงคุณภาพจากทุกสิ่งที่พวกเขาเคยทดสอบมาก่อน\”
การกำหนดราคาและข้อเสนอคุณค่า
Opus 4: ราคาอยู่ที่ 75 ดอลลาร์ต่อโทเค็นเอาต์พุตหนึ่งล้านโทเค็น โดยกำหนดเป้าหมายไปที่แอปพลิเคชันระดับไฮเอนด์
- นี่คือราคาเดียวกับ Opus 3
- o3 ของ OpenAI มีราคาอยู่ที่ 40 ดอลลาร์ต่อโทเค็นเอาต์พุตหนึ่งล้านโทเค็น
Sonnet 4: ราคาอยู่ที่ 15 ดอลลาร์ต่อโทเค็นเอาต์พุตหนึ่งล้านโทเค็น ซึ่งให้ความสมดุลระหว่างประสิทธิภาพและความสามารถในการจ่าย
- GPT-4o ของ OpenAI และ Gemini-2.5-Pro ของ Google มีราคาอยู่ที่ 20 ดอลลาร์และ 15 ดอลลาร์ต่อโทเค็นเอาต์พุตหนึ่งล้านโทเค็น ตามลำดับ Model เรือธง 4.1 ของ OpenAI มีราคาอยู่ที่ 8 ดอลลาร์ต่อโทเค็นเอาต์พุตหนึ่งล้านโทเค็น