Gemma 3n: ปฏิวัติ Inference บนอุปกรณ์ด้วย RAG

Gemma 3n: เผยพลังภายใน

Gemma 3n มีให้เลือกในสองรูปแบบพารามิเตอร์ที่แตกต่างกัน: Gemma 3n 2B และ Gemma 3n 4B ทั้งสองรุ่นมีความสามารถในการจัดการข้อความและรูปภาพ โดยมีการวางแผนที่จะรวมการรองรับเสียงในอนาคตอันใกล้นี้ ตามการคาดการณ์ของ Google นี่แสดงถึงความก้าวกระโดดที่สำคัญในด้านขนาดเมื่อเทียบกับรุ่นก่อนหน้า ซึ่งเป็น Gemma 3 1B ที่ไม่ใช่ multimodal ซึ่งเปิดตัวเมื่อต้นปีนี้ และต้องการเพียง 529MB ในการจัดการโทเค็นที่น่าประทับใจ 2,585 โทเค็นต่อวินาทีบน GPU มือถือ

ตามข้อกำหนดทางเทคนิคของ Google Gemma 3n ใช้ประโยชน์จากการเปิดใช้งานพารามิเตอร์แบบเลือก ซึ่งเป็นเทคนิคที่เป็นนวัตกรรมใหม่ที่ออกแบบมาเพื่อการจัดการพารามิเตอร์ที่มีประสิทธิภาพ นี่แสดงว่าทั้งสองรุ่นมีจำนวนพารามิเตอร์มากกว่า 2B หรือ 4B ที่ใช้งานจริงระหว่างการอนุมาน แนวทางเชิงกลยุทธ์นี้ช่วยเพิ่มประสิทธิภาพการใช้ทรัพยากรและเพิ่มประสิทธิภาพ

Fine-Tuning และ Quantization: ปลดปล่อยการปรับแต่ง

Google เน้นย้ำถึงความสามารถสำหรับนักพัฒนาในการปรับแต่งโมเดลพื้นฐานอย่างละเอียด และแปลงและหาปริมาณโดยใช้เครื่องมือ Quantization ที่ทันสมัย ซึ่งสามารถเข้าถึงได้ผ่าน Google AI Edge สิ่งนี้ช่วยให้นักพัฒนาสามารถปรับแต่งโมเดลให้เข้ากับแอปพลิเคชันเฉพาะและเพิ่มประสิทธิภาพลักษณะการทำงาน

การรวม RAG: เสริมสร้างโมเดลภาษาด้วยข้อมูลตามบริบท

อีกทางเลือกหนึ่งนอกเหนือจากการปรับแต่งอย่างละเอียดคือ โมเดล Gemma 3n สามารถปรับใช้สำหรับ Retrieval Augmented Generation (RAG) บนอุปกรณ์ ซึ่งเป็นวิธีการที่เสริมสร้างโมเดลภาษาด้วยข้อมูลเฉพาะของแอปพลิเคชัน การเพิ่มประสิทธิภาพนี้ได้รับการอำนวยความสะดวกโดยไลบรารี AI Edge RAG ซึ่งปัจจุบันมีเฉพาะใน Android เท่านั้น แต่มีแผนที่จะขยายไปยังแพลตฟอร์มอื่น ๆ ในไปป์ไลน์

ไลบรารี RAG ทำงานผ่านไปป์ไลน์ที่มีประสิทธิภาพ ซึ่งประกอบด้วยหลายขั้นตอนที่สำคัญ:

  • การนำเข้าข้อมูล: การนำเข้าข้อมูลที่เกี่ยวข้องเข้าสู่ระบบ
  • การแบ่งส่วนและการจัดทำดัชนี: การแบ่งส่วนและจัดระเบียบข้อมูลเพื่อการดึงข้อมูลที่มีประสิทธิภาพ
  • การสร้าง Embeddings: การสร้างตัวแทนเวกเตอร์ของข้อมูลเพื่อความเข้าใจเชิงความหมาย
  • การดึงข้อมูล: การระบุและดึงข้อมูลที่เกี่ยวข้องตามคำค้นหาของผู้ใช้
  • การสร้างการตอบสนอง: การสร้างการตอบสนองที่สอดคล้องและเกี่ยวข้องตามบริบทโดยใช้ LLM

กรอบงานที่มีประสิทธิภาพนี้ช่วยให้สามารถปรับแต่งไปป์ไลน์ RAG ได้อย่างครอบคลุม ครอบคลุมถึงการสนับสนุนฐานข้อมูลที่กำหนดเอง กลยุทธ์การแบ่งส่วน และฟังก์ชันการดึงข้อมูล

AI Edge On-device Function Calling SDK: เชื่อมช่องว่างระหว่างโมเดลและการดำเนินการในโลกแห่งความเป็นจริง

พร้อมกันกับการเปิดตัว Gemma 3n Google ได้เปิดตัว AI Edge On-device Function Calling SDK ซึ่งเปิดให้ใช้งานเฉพาะบน Android ในขั้นต้น SDK นี้ช่วยให้โมเดลสามารถเรียกใช้ฟังก์ชันเฉพาะ ซึ่งเป็นการดำเนินการในโลกแห่งความเป็นจริง

เพื่อให้ LLM สามารถผสานรวมกับฟังก์ชันภายนอกได้อย่างราบรื่น ฟังก์ชันจะต้องอธิบายอย่างพิถีพิถันโดยระบุชื่อ คำอธิบายที่อธิบายเมื่อ LLM ควรใช้ และพารามิเตอร์ที่จำเป็น ข้อมูลเมตานี้ถูกห่อหุ้มไว้ในออบเจ็กต์ Tool ซึ่งจะถูกส่งไปยังโมเดลภาษาขนาดใหญ่ผ่านตัวสร้าง GenerativeModel ในภายหลัง Function Calling SDK รวมการรองรับสำหรับการรับ Function Call จาก LLM ตามคำอธิบายที่ให้ไว้ และส่งผลการดำเนินการกลับไปยัง LLM

สำหรับผู้ที่กระตือรือร้นที่จะเจาะลึกลงไปในเครื่องมือที่ก้าวล้ำเหล่านี้ Google AI Edge Gallery ถือเป็นแหล่งข้อมูลอันล้ำค่า แอปพลิเคชันทดลองนี้แสดงโมเดลที่หลากหลายและอำนวยความสะดวกในการประมวลผลข้อความ รูปภาพ และเสียง

เจาะลึก: ความแตกต่างของ Gemma 3n และระบบนิเวศ

การถือกำเนิดของ Gemma 3n ถือเป็นการก้าวกระโดดที่สำคัญในการวิวัฒนาการของ Machine Learning บนอุปกรณ์ โดยนำเสนอการผสมผสานที่มีประสิทธิภาพของประสิทธิภาพ ความสามารถในการปรับตัว และฟังก์ชันการทำงาน ความสามารถ multimodal ควบคู่ไปกับการสนับสนุน RAG และ Function Calling จะปลดล็อกความเป็นไปได้มากมายสำหรับนักพัฒนาที่ต้องการสร้างแอปพลิเคชันอัจฉริยะและรับรู้บริบท

Selective Parameter Activation: การเจาะลึก

เทคนิค Selective Parameter Activation ที่ใช้โดย Gemma 3n สมควรได้รับการตรวจสอบอย่างใกล้ชิด แนวทางที่เป็นนวัตกรรมใหม่นี้ช่วยให้โมเดลสามารถเปิดใช้งานเฉพาะพารามิเตอร์ที่จำเป็นสำหรับงานที่กำหนดแบบไดนามิก ซึ่งช่วยลดค่าใช้จ่ายในการคำนวณและเพิ่มประสิทธิภาพ สิ่งนี้มีความสำคัญอย่างยิ่งสำหรับการปรับใช้บนอุปกรณ์ ซึ่งทรัพยากรมักถูกจำกัด

หลักการพื้นฐานเบื้องหลัง Selective Parameter Activation อยู่ในการสังเกตว่าไม่ใช่ทุกพารามิเตอร์ในโครงข่ายประสาทเทียมที่มีความสำคัญเท่าเทียมกันสำหรับทุกงาน การเลือกเปิดใช้งานเฉพาะพารามิเตอร์ที่เกี่ยวข้องมากที่สุด โมเดลสามารถบรรลุประสิทธิภาพที่เทียบเคียงได้ด้วยค่าใช้จ่ายในการคำนวณที่ลดลงอย่างมาก

การนำ Selective Parameter Activation ไปใช้งานโดยทั่วไปเกี่ยวข้องกับกลไกสำหรับการพิจารณาว่าพารามิเตอร์ใดที่จะเปิดใช้งานสำหรับอินพุตที่กำหนด สิ่งนี้สามารถทำได้ผ่านเทคนิคต่างๆ เช่น:

  • กลไก Attention: การให้ความสนใจกับส่วนที่เกี่ยวข้องมากที่สุดของอินพุตและเปิดใช้งานพารามิเตอร์ที่เกี่ยวข้อง
  • กลไก Gating: การใช้ฟังก์ชัน Gating เพื่อควบคุมการไหลของข้อมูลผ่านส่วนต่างๆ ของเครือข่าย
  • Sparse Training: การฝึกเครือข่ายเพื่อเรียนรู้การเชื่อมต่อแบบ Sparse เพื่อให้มีการใช้งานเฉพาะชุดย่อยของพารามิเตอร์ระหว่างการอนุมาน

การเลือกเทคนิคขึ้นอยู่กับสถาปัตยกรรมเฉพาะของโมเดลและลักษณะของงาน อย่างไรก็ตาม เป้าหมายโดยรวมคือการระบุและเปิดใช้งานเฉพาะพารามิเตอร์ที่เกี่ยวข้องมากที่สุดสำหรับอินพุตที่กำหนด ซึ่งจะช่วยลดค่าใช้จ่ายในการคำนวณและปรับปรุงประสิทธิภาพ

RAG: การเพิ่มพูนความรู้และบริบท

Retrieval Augmented Generation (RAG) แสดงถึงการเปลี่ยนแปลงกระบวนทัศน์ในวิธีการใช้โมเดลภาษา การบูรณาการแหล่งความรู้ภายนอก RAG ช่วยให้โมเดลภาษาสามารถสร้างการตอบสนองที่ได้รับข้อมูล ถูกต้อง และเกี่ยวข้องตามบริบทมากขึ้น

ไปป์ไลน์ RAG ประกอบด้วยหลายขั้นตอนที่สำคัญ:

  1. การจัดทำดัชนีข้อมูล: ในขั้นตอนนี้ แหล่งความรู้ภายนอกจะถูกจัดทำดัชนีเพื่อให้สามารถดึงข้อมูลที่เกี่ยวข้องได้อย่างมีประสิทธิภาพ โดยทั่วไปแล้ว สิ่งนี้เกี่ยวข้องกับการสร้างตัวแทนเวกเตอร์ของแต่ละเอกสารในแหล่งความรู้ ซึ่งสามารถใช้เพื่อระบุเอกสารที่คล้ายกับคำค้นหาที่กำหนดได้อย่างรวดเร็ว
  2. การดึงข้อมูล: เมื่อได้รับคำค้นหา ระบบ RAG จะดึงเอกสารที่เกี่ยวข้องมากที่สุดจากแหล่งความรู้ที่จัดทำดัชนี โดยทั่วไปแล้ว สิ่งนี้จะทำโดยใช้อัลกอริทึมการค้นหาความคล้ายคลึงกัน ซึ่งจะเปรียบเทียบตัวแทนเวกเตอร์ของคำค้นหากับตัวแทนเวกเตอร์ของเอกสารในแหล่งความรู้
  3. Contextualization: จากนั้น เอกสารที่ดึงมาจะใช้เพื่อเพิ่มพูนบริบทของคำค้นหา สิ่งนี้สามารถทำได้โดยเพียงแค่ต่อเอกสารที่ดึงมาเข้ากับคำค้นหา หรือโดยใช้เทคนิคที่ซับซ้อนกว่าเพื่อรวมข้อมูลจากเอกสารที่ดึงมาลงในการแสดงคำค้นหา
  4. การสร้างการตอบสนอง: สุดท้าย คำค้นหาที่เพิ่มพูนจะป้อนเข้าสู่โมเดลภาษา ซึ่งจะสร้างการตอบสนองตามข้อมูลที่รวมกันจากคำค้นหาและเอกสารที่ดึงมา

RAG มีข้อดีหลายประการเหนือโมเดลภาษาแบบเดิม:

  • ความแม่นยำที่เพิ่มขึ้น: การรวมความรู้ภายนอก โมเดล RAG สามารถสร้างการตอบสนองที่ถูกต้องและเป็นข้อเท็จจริงมากขึ้น
  • ความเข้าใจตามบริบทที่ดีขึ้น: โมเดล RAG สามารถเข้าใจบริบทของคำค้นหาได้ดีขึ้นโดยใช้ประโยชน์จากข้อมูลในเอกสารที่ดึงมา
  • การลด Hallucinations: โมเดล RAG มีโอกาสน้อยที่จะ Hallucinate หรือสร้างการตอบสนองที่ไร้สาระ เนื่องจากมีพื้นฐานมาจากความรู้ภายนอก
  • ความสามารถในการปรับตัวเข้ากับข้อมูลใหม่: โมเดล RAG สามารถปรับตัวเข้ากับข้อมูลใหม่ได้อย่างง่ายดายโดยเพียงแค่อัปเดตแหล่งความรู้ที่จัดทำดัชนี

Function Calling: การโต้ตอบกับโลกแห่งความเป็นจริง

AI Edge On-device Function Calling SDK แสดงถึงขั้นตอนที่สำคัญในการทำให้โมเดลภาษาสามารถโต้ตอบกับโลกแห่งความเป็นจริง การอนุญาตให้โมเดลสามารถเรียกใช้ฟังก์ชันภายนอก SDK จะปลดล็อกความเป็นไปได้ที่หลากหลายสำหรับการสร้างแอปพลิเคชันอัจฉริยะและรับรู้บริบท

กระบวนการ Function Calling โดยทั่วไปเกี่ยวข้องกับขั้นตอนต่อไปนี้:

  1. การกำหนดฟังก์ชัน: นักพัฒนากำหนดฟังก์ชันที่โมเดลภาษาสามารถเรียกใช้ ซึ่งรวมถึงการระบุชื่อของฟังก์ชัน คำอธิบายสิ่งที่ฟังก์ชันทำ และพารามิเตอร์ที่ฟังก์ชันยอมรับ
  2. การสร้างออบเจ็กต์ Tool: นักพัฒนาสร้างออบเจ็กต์ Tool ที่ห่อหุ้มคำจำกัดความของฟังก์ชัน จากนั้นออบเจ็กต์นี้จะถูกส่งไปยังโมเดลภาษา
  3. การสร้าง Function Call: เมื่อโมเดลภาษาต้องการดำเนินการในโลกแห่งความเป็นจริง มันจะสร้าง Function Call การเรียกนี้รวมถึงชื่อของฟังก์ชันที่จะเรียกใช้และค่าของพารามิเตอร์ที่จะส่งไปยังฟังก์ชัน
  4. การดำเนินการฟังก์ชัน: จากนั้น Function Call จะถูกดำเนินการโดยระบบ โดยทั่วไปแล้ว สิ่งนี้เกี่ยวข้องกับการเรียก API หรือบริการที่เกี่ยวข้อง
  5. การส่งผลลัพธ์: จากนั้นผลลัพธ์ของการดำเนินการฟังก์ชันจะถูกส่งกลับไปยังโมเดลภาษา
  6. การสร้างการตอบสนอง: สุดท้าย โมเดลภาษาใช้ผลลัพธ์ของการดำเนินการฟังก์ชันเพื่อสร้างการตอบสนอง

Function Calling SDK ช่วยให้โมเดลภาษาสามารถดำเนินการได้หลากหลายงาน เช่น:

  • การเข้าถึงข้อมูลจากแหล่งภายนอก: โมเดลสามารถเรียกฟังก์ชันเพื่อดึงข้อมูลจากฐานข้อมูล API และแหล่งภายนอกอื่นๆ
  • การควบคุมอุปกรณ์และเครื่องใช้: โมเดลสามารถเรียกฟังก์ชันเพื่อควบคุมอุปกรณ์สมาร์ทโฮม เช่น ไฟ เครื่องควบคุมอุณหภูมิ และเครื่องใช้
  • การทำธุรกรรม: โมเดลสามารถเรียกฟังก์ชันเพื่อทำธุรกรรมทางการเงิน เช่น การชำระเงินและการโอนเงิน
  • การทำงานอัตโนมัติ: โมเดลสามารถเรียกฟังก์ชันเพื่อทำงานที่ซับซ้อนโดยอัตโนมัติ เช่น การจัดตารางนัดหมายและการส่งอีเมล

Google AI Edge Gallery ทำหน้าที่เป็นแพลตฟอร์มที่สำคัญสำหรับการจัดแสดงความสามารถของ Gemma 3n และเครื่องมือที่เกี่ยวข้อง การจัดหาสภาพแวดล้อมแบบโต้ตอบที่นักพัฒนาสามารถทดลองใช้เทคโนโลยีเหล่านี้ แกลเลอรี่จะส่งเสริม