Meta’s Llama ซึ่งเดิมรู้จักกันในชื่อ LLaMA (Large Language Model Meta AI) ได้เปิดตัวอย่างยิ่งใหญ่ในเดือนกุมภาพันธ์ 2023 ถือเป็นการบุกเบิกของ Meta เข้าสู่โลกแห่งการแข่งขันของโมเดลภาษาขนาดใหญ่ (LLMs) การเปิดตัว Llama 2 ในเดือนกรกฎาคม 2023 ถือเป็นจุดเปลี่ยนเกม เนื่องจาก Meta ได้นำใบอนุญาตแบบเปิดที่อนุญาตมาใช้ ซึ่งเป็นการทำให้การเข้าถึงเป็นประชาธิปไตยและส่งเสริมการนำไปใช้อย่างแพร่หลาย ด้วยการปรับปรุงอย่างต่อเนื่องและการทำซ้ำหลายครั้ง Llama ได้เพิ่มขีดความสามารถของตนเองอย่างต่อเนื่อง เสริมสร้างตำแหน่งในหมู่ยักษ์ใหญ่ในอุตสาหกรรม เช่น OpenAI, Anthropic และ Google
ตระกูล Llama ได้ขยายตัวต่อไปในวันที่ 5 เมษายน 2025 ด้วยการเปิดตัวโมเดลตระกูล Llama 4 หรือที่เรียกว่าฝูง Llama 4 ซึ่งเป็นการประกาศถึงยุคใหม่ของ multimodal LLMs
Meta Llama 4 คืออะไร?
Meta Llama 4 แสดงถึงก้าวกระโดดครั้งสำคัญในเทคโนโลยี LLM โดยมีความสามารถ multimodal ที่ช่วยให้สามารถประมวลผลและตีความข้อมูลข้อความ รูปภาพ และวิดีโอ โมเดลรุ่นที่สี่นี้ก้าวข้ามอุปสรรคทางภาษาด้วยการรองรับภาษาต่างๆ มากมายจากทั่วโลก
นวัตกรรมที่สำคัญในโมเดล Llama 4 คือการนำสถาปัตยกรรม mixture-of-experts มาใช้ ซึ่งเป็นครั้งแรกสำหรับตระกูล Llama สถาปัตยกรรมนี้จะเปิดใช้งานชุดย่อยของพารามิเตอร์ทั้งหมดแบบไดนามิกสำหรับแต่ละโทเค็นอินพุต ทำให้เกิดความสมดุลที่กลมกลืนระหว่างพลังงานและประสิทธิภาพ
ในขณะที่ใบอนุญาตชุมชน Llama 4 ไม่ได้รับการยอมรับอย่างเป็นทางการว่าเป็นใบอนุญาตที่ได้รับการอนุมัติจาก Open Source Initiative แต่ Meta ก็ระบุว่าโมเดล Llama 4 ของตนเป็นโอเพนซอร์ส ใบอนุญาตนี้ให้สิทธิ์การใช้งานและการแก้ไขโมเดล Llama 4 ได้ฟรี โดยมีข้อจำกัดบางประการ ณ เดือนเมษายน 2025 ขีดจำกัดถูกกำหนดไว้ที่ 700 ล้านผู้ใช้รายเดือน ซึ่งเกินกว่านั้นจะต้องมีใบอนุญาตเชิงพาณิชย์
กลุ่มผลิตภัณฑ์ Llama 4 ประกอบด้วยสามเวอร์ชันหลัก: Scout, Maverick และ Behemoth Scout และ Maverick เปิดตัวพร้อมกัน ในขณะที่ Behemoth ยังอยู่ระหว่างการพัฒนา โมเดลเหล่านี้มีความแตกต่างกันอย่างมากในข้อกำหนดเฉพาะ:
- Llama 4 Scout: มีพารามิเตอร์ที่ใช้งาน 17 พันล้านรายการ, ผู้เชี่ยวชาญ 16 คน, พารามิเตอร์ทั้งหมด 109 พันล้านรายการ, หน้าต่างบริบท 10 ล้านโทเค็น และ cutoff ความรู้ในเดือนสิงหาคม 2024
- Llama 4 Maverick: มีพารามิเตอร์ที่ใช้งาน 17 พันล้านรายการเช่นกัน แต่มีผู้เชี่ยวชาญ 128 คน, พารามิเตอร์ทั้งหมด 400 พันล้านรายการ, หน้าต่างบริบท 1 ล้านโทเค็น และ cutoff ความรู้เดียวกันกับ Scout
- Llama 4 Behemoth: ทรงพลังที่สุดในบรรดาสามตัว โดยมีพารามิเตอร์ที่ใช้งาน 288 พันล้านรายการ, ผู้เชี่ยวชาญ 16 คน, พารามิเตอร์ทั้งหมด 2 ล้านล้านรายการ และหน้าต่างบริบทและ cutoff ความรู้ที่ไม่ระบุรายละเอียด
ขีดความสามารถของ Meta Llama 4
โมเดล Meta Llama 4 ปลดล็อกแอปพลิเคชันที่หลากหลาย รวมถึง:
- Native Multimodality: ความสามารถในการทำความเข้าใจข้อความ รูปภาพ และวิดีโอพร้อมกัน สิ่งนี้ช่วยให้โมเดลสามารถดึงบริบทและความหมายจากแหล่งข้อมูลที่หลากหลาย
- Content Summarization: โมเดล Llama 4 สามารถสรุปข้อมูลจากประเภทเนื้อหาต่างๆ ได้อย่างมีประสิทธิภาพ ซึ่งเป็นส่วนสำคัญของความเข้าใจ multimodal ตัวอย่างเช่น โมเดลสามารถวิเคราะห์วิดีโอ แยกฉากสำคัญ และสร้างบทสรุปเนื้อหาที่กระชับ
- Long-Context Processing: Llama 4 Scout ได้รับการออกแบบมาโดยเฉพาะเพื่อประมวลผลข้อมูลจำนวนมาก ซึ่งอำนวยความสะดวกโดยหน้าต่างบริบท 10 ล้านโทเค็นที่กว้างขวาง ความสามารถนี้มีค่าอย่างยิ่งสำหรับงานต่างๆ เช่น การวิเคราะห์เอกสารงานวิจัยที่ครอบคลุมหรือการประมวลผลเอกสารที่ยาว
- Multilingual Modality: โมเดล Llama 4 ทั้งหมดแสดงให้เห็นถึงความเชี่ยวชาญด้านภาษา สนับสนุนภาษาต่างๆ มากมายสำหรับการประมวลผลข้อความ: อาหรับ อังกฤษ ฝรั่งเศส เยอรมัน ฮินดี อินโดนีเซีย อิตาลี โปรตุเกส สเปน ตากาล็อก ไทย และเวียดนาม อย่างไรก็ตาม ความเข้าใจรูปภาพในปัจจุบันจำกัดเฉพาะภาษาอังกฤษ
- Text Generation: โมเดล Llama 4 เก่งในการสร้างข้อความที่สอดคล้องและเกี่ยวข้องกับบริบท รวมถึงความพยายามในการเขียนเชิงสร้างสรรค์ โมเดลสามารถปรับให้เข้ากับรูปแบบการเขียนต่างๆ และสร้างข้อความคุณภาพระดับมนุษย์
- Advanced Reasoning: โมเดลเหล่านี้มีความสามารถในการให้เหตุผลผ่านปัญหาทางวิทยาศาสตร์และคณิตศาสตร์ที่ซับซ้อน พวกเขาสามารถถอดรหัสตรรกะที่ซับซ้อนและได้ข้อสรุปที่ถูกต้อง
- Code Generation: Llama 4 สามารถเข้าใจและสร้างโค้ดแอปพลิเคชัน ช่วยเหลือนักพัฒนาในการปรับปรุงขั้นตอนการทำงานของพวกเขา โมเดลสามารถสร้าง code snippet, ฟังก์ชันที่สมบูรณ์ และแม้กระทั่งพัฒนาแอปพลิเคชันทั้งหมด
- Base Model Functionality: ในฐานะที่เป็นโมเดลแบบเปิด Llama 4 ทำหน้าที่เป็นองค์ประกอบพื้นฐานสำหรับการพัฒนาโมเดลอนุพันธ์ นักวิจัยและนักพัฒนาสามารถปรับแต่ง Llama 4 สำหรับงานเฉพาะ โดยใช้ประโยชน์จากความสามารถที่มีอยู่เพื่อสร้างแอปพลิเคชันเฉพาะทาง
วิธีการฝึกอบรมของ Meta Llama 4
Meta ใช้ชุดเทคนิคขั้นสูงในการฝึกอบรม LLM ตระกูล Llama รุ่นที่สี่ โดยมีเป้าหมายเพื่อเพิ่มความแม่นยำและประสิทธิภาพเมื่อเทียบกับรุ่นก่อนหน้า เทคนิคเหล่านี้รวมถึง:
- Training Data: หัวใจสำคัญของ LLM ใดๆ คือข้อมูลการฝึกอบรม และ Meta ตระหนักดีว่าข้อมูลที่มากขึ้นจะแปลเป็นประสิทธิภาพที่ดีขึ้น เพื่อจุดประสงค์นี้ Llama 4 ได้รับการฝึกฝนบนโทเค็นกว่า 30 ล้านล้านโทเค็น ซึ่งเป็นสองเท่าของปริมาณข้อมูลที่ใช้ในการฝึกอบรม Llama 3
- Early Fusion Multimodality: ซีรีส์ Llama 4 ใช้แนวทาง “early fusion” ซึ่งรวมโทเค็นข้อความและวิชันซิสเต็มเข้ากับโมเดลที่เป็นเอกภาพ แนวทางนี้ ตามที่ Meta ระบุ ส่งเสริมความเข้าใจที่เป็นธรรมชาติมากขึ้นระหว่างข้อมูลภาพและข้อความ โดยไม่จำเป็นต้องมีตัวเข้ารหัสและตัวถอดรหัสแยกต่างหาก
- Hyperparameter Optimization: เทคนิคนี้เกี่ยวข้องกับการปรับแต่ง hyperparameter ของโมเดลที่สำคัญ เช่น อัตราการเรียนรู้ต่อเลเยอร์ เพื่อให้ได้ผลการฝึกอบรมที่น่าเชื่อถือและสม่ำเสมอมากขึ้น ด้วยการเพิ่มประสิทธิภาพพารามิเตอร์เหล่านี้ Meta จึงสามารถปรับปรุงเสถียรภาพและประสิทธิภาพโดยรวมของ Llama 4
- iRoPE Architecture: สถาปัตยกรรม interleaved attention layers without positional embeddings หรือ iRoPE architecture ช่วยเพิ่มประสิทธิภาพการจัดการลำดับที่ยาวระหว่างการฝึกอบรม และอำนวยความสะดวกให้กับหน้าต่างบริบท 10 ล้านโทเค็นใน Llama 4 Scout สถาปัตยกรรมนี้ช่วยให้โมเดลสามารถเก็บรักษาข้อมูลจากส่วนที่อยู่ห่างไกลของลำดับอินพุต ทำให้สามารถประมวลผลเอกสารที่ยาวและซับซ้อนมากขึ้น
- MetaCLIP Vision Encoder: ตัวเข้ารหัสวิชันซิสเต็ม Meta ใหม่จะแปลภาพเป็น representation โทเค็น ซึ่งนำไปสู่ความเข้าใจ multimodal ที่ดีขึ้น ตัวเข้ารหัสนี้ช่วยให้ Llama 4 สามารถประมวลผลและตีความข้อมูลภาพได้อย่างมีประสิทธิภาพ
- GOAT Safety Training: Meta ได้ใช้ Generative Offensive Agent Tester (GOAT) ตลอดการฝึกอบรมเพื่อระบุช่องโหว่ของ LLM และปรับปรุงความปลอดภัยของโมเดล เทคนิคนี้ช่วยลดความเสี่ยงที่โมเดลจะสร้างเนื้อหาที่เป็นอันตรายหรือมีอคติ
วิวัฒนาการของโมเดล Llama
หลังจากการเปิดตัว ChatGPT ที่แหวกแนวในเดือนพฤศจิกายน 2022 บริษัทต่างๆ ทั่วทั้งอุตสาหกรรมต่างเร่งรีบเพื่อสร้างรากฐานในตลาด LLM Meta เป็นหนึ่งในผู้ตอบสนองรายแรกๆ โดยเปิดตัวโมเดล Llama เริ่มต้นในช่วงต้นปี 2023 แม้ว่าจะมีข้อจำกัดในการเข้าถึงก็ตาม เมื่อเริ่มต้นด้วยการเปิดตัว Llama 2 ในช่วงกลางปี 2023 โมเดลที่ตามมาทั้งหมดได้รับการเผยแพร่ภายใต้ใบอนุญาตแบบเปิด
- Llama 1: โมเดล Llama ดั้งเดิม เปิดตัวในเดือนกุมภาพันธ์ 2023 โดยมีการเข้าถึงที่จำกัด
- Llama 2: เปิดตัวในเดือนกรกฎาคม 2023 ในฐานะโมเดล Llama ตัวแรกที่มีใบอนุญาตแบบเปิด Llama 2 ให้การเข้าถึงและการใช้งานฟรี การทำซ้ำนี้รวมถึงรุ่นพารามิเตอร์ 7B, 13B และ 70B ซึ่งตอบสนองความต้องการด้านการคำนวณที่หลากหลาย
- Llama 3: โมเดล Llama 3 เปิดตัวในเดือนเมษายน 2024 ในตอนแรกมีรุ่นพารามิเตอร์ 8B และ 70B
- Llama 3.1: เปิดตัวในเดือนกรกฎาคม 2024 Llama 3.1 ได้เพิ่มโมเดลพารามิเตอร์ 405B ซึ่งผลักดันขอบเขตของความสามารถของ LLM
- Llama 3.2: โมเดลนี้ ซึ่งเป็น LLM multimodal อย่างเต็มรูปแบบตัวแรกของ Meta ได้รับการเผยแพร่ในเดือนตุลาคม 2024 ถือเป็นก้าวสำคัญในวิวัฒนาการของตระกูล Llama
- Llama 3.3: Meta อ้างในการเปิดตัวเมื่อเดือนธันวาคม 2024 ว่ารุ่น 70B ของ Llama 3.3 ให้ประสิทธิภาพเทียบเท่ากับรุ่น 405B ของ 3.1 ในขณะที่ต้องการทรัพยากรการคำนวณน้อยกว่า แสดงให้เห็นถึงความพยายามในการเพิ่มประสิทธิภาพอย่างต่อเนื่อง
Llama 4 เมื่อเทียบกับโมเดลอื่นๆ
ภูมิทัศน์ของ generative AI กำลังมีการแข่งขันกันมากขึ้น โดยมีผู้เล่นที่โดดเด่น เช่น GPT-4o ของ OpenAI, Google Gemini 2.0 และโครงการโอเพนซอร์สต่างๆ รวมถึง DeepSeek
ประสิทธิภาพของ Llama 4 สามารถประเมินได้โดยใช้เกณฑ์มาตรฐานหลายชุด รวมถึง:
- MMMU (Massive Multi-discipline Multimodal Understanding): ประเมินความสามารถในการให้เหตุผลของรูปภาพ
- LiveCodeBench: ประเมินความเชี่ยวชาญด้านการเขียนโค้ด
- GPQA Diamond (Graduate-Level Google-Proof Q&A Diamond): วัดการให้เหตุผลและความรู้
คะแนนที่สูงขึ้นในเกณฑ์มาตรฐานเหล่านี้บ่งชี้ถึงประสิทธิภาพที่ดีขึ้น
Llama 4 Maverick | Gemini 2.0 Flash | GPT-4o | |
---|---|---|---|
MMMU image reasoning | 73.4 | 71.7 | 69.1 |
LiveCodeBench | 43.4 | 34.05 | 32.3 |
GPQA Diamond | 69.8 | 60.1 | 53.6 |
เกณฑ์มาตรฐานเหล่านี้เน้นย้ำถึงจุดแข็งของ Llama 4 Maverick ในด้านการให้เหตุผลของรูปภาพ การเขียนโค้ด และความรู้ทั่วไป ทำให้เป็นคู่แข่งที่แข็งแกร่งในเวที LLM
การเข้าถึง Llama 4
Meta Llama 4 Maverick และ Scout พร้อมใช้งานผ่านช่องทางต่างๆ:
- Llama.com: ดาวน์โหลด Scout และ Maverick ได้โดยตรงจากเว็บไซต์ llama.com ที่ดำเนินการโดย Meta ฟรี
- Meta.ai: อินเทอร์เฟซเว็บ Meta.ai ให้การเข้าถึง Llama 4 ผ่านเบราว์เซอร์ ช่วยให้ผู้ใช้สามารถโต้ตอบกับโมเดลได้โดยไม่ต้องมีการติดตั้งในเครื่อง
- Hugging Face: Llama 4 ยังสามารถเข้าถึงได้ที่ https://huggingface.co/meta-llama ซึ่งเป็นแพลตฟอร์มยอดนิยมสำหรับการแบ่งปันและค้นหาโมเดล machine learning
- Meta AI App: Llama 4 ขับเคลื่อนผู้ช่วยเสมือน AI ของ Meta ซึ่งสามารถเข้าถึงได้ผ่านเสียงหรือข้อความในแพลตฟอร์มต่างๆ ผู้ใช้สามารถใช้ประโยชน์จากผู้ช่วยในการทำงานต่างๆ เช่น การสรุปข้อความ การสร้างเนื้อหา และการตอบคำถาม