เพิ่มประสิทธิภาพ LLM ด้วย Intelligent Prompt Routing

ทำความเข้าใจเกี่ยวกับ Intelligent Prompt Routing

Intelligent Prompt Routing ของ Amazon Bedrock ได้รับการออกแบบมาเพื่อเพิ่มประสิทธิภาพการใช้งาน LLM โดยการส่ง prompt ที่ง่ายกว่าไปยังโมเดลที่มีต้นทุนต่ำกว่า ซึ่งจะช่วยเพิ่มประสิทธิภาพและลดค่าใช้จ่าย ระบบมี default prompt routers สำหรับแต่ละตระกูลโมเดล ทำให้สามารถใช้งานได้ทันทีด้วยการกำหนดค่าที่กำหนดไว้ล่วงหน้าซึ่งปรับให้เหมาะกับ foundational models ที่เฉพาะเจาะจง ผู้ใช้ยังสามารถกำหนดค่า routers ของตนเองเพื่อให้ตรงกับความต้องการเฉพาะได้ ปัจจุบัน บริการนี้รองรับ LLM families ที่หลากหลาย รวมถึง:

  • Anthropic Claude Series: Haiku, 5 v1, Haiku 3.5, Sonnet 3.5 v2
  • Llama Series: Llama 3.1 8b, 70b, 3.2 11b, 90B, and 3.3 70B
  • Nova Series: Nova Pro และ Nova lite

AWS ได้ทำการทดสอบภายในอย่างกว้างขวางโดยใช้ข้อมูลที่เป็นกรรมสิทธิ์และข้อมูลที่เปิดเผยต่อสาธารณะเพื่อประเมินประสิทธิภาพของ Intelligent Prompt Routing ของ Amazon Bedrock โดยใช้ metrics หลักสองอย่าง:

  1. Average Response Quality Gain under Cost Constraint (ARQGC): metric มาตรฐานนี้ (ตั้งแต่ 0 ถึง 1) ประเมินคุณภาพของ router ภายใต้ข้อจำกัดด้านต้นทุนต่างๆ โดย 0.5 หมายถึงการ routing แบบสุ่ม และ 1 หมายถึงการ routing ที่เหมาะสมที่สุด
  2. Cost Savings: metric นี้เปรียบเทียบต้นทุนของการใช้ Intelligent Prompt Routing กับการใช้โมเดลที่มีประสิทธิภาพมากที่สุดใน series ที่กำหนด
  3. Latency Advantages: วัดโดย Average Time to First Token (TTFT).

ข้อมูลที่รวบรวมให้ข้อมูลเชิงลึกเกี่ยวกับประสิทธิภาพของ Intelligent Prompt Routing ในการสร้างสมดุลระหว่างคุณภาพการตอบสนอง ต้นทุน และ latency

เจาะลึกความแตกต่างของคุณภาพการตอบสนอง

Response Quality Difference metric วัดความแตกต่างในการตอบสนองระหว่าง fallback model และโมเดลอื่นๆ ค่าที่น้อยกว่าบ่งชี้ถึงความคล้ายคลึงกันในการตอบสนองที่มากขึ้น ในขณะที่ค่าที่มากกว่าบ่งชี้ถึงความแตกต่างที่สำคัญกว่า การเลือก fallback model เป็นสิ่งสำคัญ ตัวอย่างเช่น หากใช้ Claude 3 Sonnet ของ Anthropic เป็น fallback model และ Response Quality Difference ถูกตั้งค่าเป็น 10% router จะเลือก LLM แบบไดนามิกที่ให้คุณภาพการตอบสนองภายใน 10% ของ Claude 3 Sonnet เพื่อเพิ่มประสิทธิภาพโดยรวม

ในทางกลับกัน หากใช้โมเดลที่มีต้นทุนต่ำกว่าเช่น Claude 3 Haiku เป็น fallback model router จะเลือก LLM แบบไดนามิกที่ปรับปรุงคุณภาพการตอบสนองมากกว่า 10% เมื่อเทียบกับ Claude 3 Haiku ในสถานการณ์ที่ Haiku เป็น fallback model Response Quality Difference ที่ 10% จะถูกกำหนดค่าเพื่อให้ได้สมดุลที่ต้องการระหว่างต้นทุนและคุณภาพ

การนำไปใช้งานจริงและการสาธิต

Intelligent Prompt Routing ของ Amazon Bedrock สามารถเข้าถึงได้ผ่าน AWS Management Console ทำให้ผู้ใช้สามารถสร้าง custom routers หรือใช้ pre-configured defaults ได้ ในการกำหนดค่า prompt router ให้ไปที่ Prompt Routers ใน Amazon Bedrock console และเลือก ‘Configure prompt router’

เมื่อกำหนดค่าแล้ว router สามารถใช้งานได้ใน Playground ภายใน console ตัวอย่างเช่น สามารถแนบเอกสาร 10K จาก Amazon.com และสามารถถามคำถามเฉพาะเกี่ยวกับต้นทุนการขายได้

เมื่อเลือกไอคอน ‘router metrics’ ผู้ใช้สามารถกำหนดได้ว่าโมเดลใดประมวลผลคำขอในท้ายที่สุด ในกรณีที่เกี่ยวข้องกับคำถามที่ซับซ้อน Intelligent Prompt Routing ของ Amazon Bedrock จะส่งคำขอไปยังโมเดลที่มีประสิทธิภาพมากกว่าเช่น Claude 3.5 Sonnet V2

การสำรวจ LLM Series ในรายละเอียด

Anthropic Claude Series

Anthropic Claude series นำเสนอโมเดลที่หลากหลาย ซึ่งแต่ละโมเดลมีความสามารถและโปรไฟล์ต้นทุนที่แตกต่างกัน โมเดล Haiku ได้รับการออกแบบมาเพื่อความเร็วและประสิทธิภาพ ทำให้เหมาะสำหรับงานที่การตอบสนองที่รวดเร็วเป็นสิ่งสำคัญและความซับซ้อนอยู่ในระดับปานกลาง ในทางกลับกัน Claude 3 Sonnet ให้แนวทางที่สมดุลมากกว่า ให้การตอบสนองที่มีคุณภาพสูงโดยไม่มีต้นทุนระดับพรีเมียมที่เกี่ยวข้องกับโมเดลที่ทันสมัยที่สุด เวอร์ชันต่างๆ ภายใน Claude series ช่วยให้ผู้ใช้สามารถปรับแต่งตัวเลือกของตนเองตามข้อกำหนดของแอปพลิเคชันเฉพาะและข้อจำกัดด้านงบประมาณ

Llama Series

Llama series ซึ่งพัฒนาโดย Meta เป็นที่รู้จักในด้านลักษณะโอเพนซอร์สและความสามารถรอบด้าน โมเดลภายใน series นี้มีตั้งแต่โมเดลขนาดเล็กที่มีประสิทธิภาพมากกว่าเช่น Llama 3.1 8b ไปจนถึงโมเดลขนาดใหญ่ที่มีประสิทธิภาพมากกว่าเช่น Llama 3.3 70B ช่วงนี้ช่วยให้ผู้ใช้สามารถเลือกโมเดลที่เหมาะสมตามความซับซ้อนของงานและทรัพยากรการคำนวณที่มีอยู่ Llama series เป็นที่นิยมอย่างยิ่งในการวิจัยและพัฒนาเนื่องจากความสามารถในการเข้าถึงและความสามารถในการปรับแต่งและปรับแต่งโมเดล

Nova Series

Nova series ประกอบด้วยโมเดลเช่น Nova Pro และ Nova Lite ซึ่งได้รับการออกแบบมาเพื่อให้มีความสมดุลระหว่างประสิทธิภาพและประสิทธิภาพ Nova Pro มุ่งเน้นไปที่งานที่ต้องการมากขึ้นซึ่งต้องการความแม่นยำและรายละเอียดในระดับที่สูงขึ้น ในขณะที่ Nova Lite ได้รับการปรับให้เหมาะสมสำหรับการประมวลผลที่รวดเร็วกว่าและต้นทุนการคำนวณที่ต่ำกว่า Series นี้มักใช้ในแอปพลิเคชันที่การตอบสนองแบบเรียลไทม์และการใช้ทรัพยากรอย่างมีประสิทธิภาพเป็นสิ่งจำเป็น

การเปรียบเทียบเกณฑ์มาตรฐานและการวิเคราะห์ประสิทธิภาพ

การทดสอบเกณฑ์มาตรฐานที่ดำเนินการโดย AWS ให้ข้อมูลเชิงลึกที่มีค่าเกี่ยวกับประสิทธิภาพของ Intelligent Prompt Routing ใน model series ต่างๆ ARQGC metric เน้นถึงความสามารถของ router ในการรักษาคุณภาพการตอบสนองสูงในขณะที่ยึดมั่นในข้อจำกัดด้านต้นทุน Cost Savings metric แสดงให้เห็นถึงประโยชน์ทางเศรษฐกิจของการใช้ Intelligent Prompt Routing เมื่อเทียบกับการพึ่งพาเฉพาะโมเดลที่มีประสิทธิภาพมากที่สุดเท่านั้น TTFT metric เน้นย้ำถึงข้อดีของ latency ซึ่งบ่งชี้ถึงเวลาตอบสนองที่เร็วขึ้นสำหรับคำถามหลายประเภท

เกณฑ์มาตรฐานเหล่านี้แสดงให้เห็นว่า Intelligent Prompt Routing สามารถลดต้นทุนได้อย่างมากในขณะที่ยังคงรักษาการตอบสนองที่มีคุณภาพสูงและลด latency ใน model series ต่างๆ ผู้ใช้ได้รับการสนับสนุนให้ทดลองกับค่า Response Quality Difference ที่แตกต่างกันระหว่างการกำหนดค่าเพื่อระบุการตั้งค่าที่เหมาะสมที่สุดสำหรับความต้องการเฉพาะของตนเอง โดยการวิเคราะห์คุณภาพการตอบสนอง ต้นทุน และ latency ของ router บน datasets การพัฒนาของตนเอง ผู้ใช้สามารถปรับแต่งการกำหนดค่าเพื่อให้ได้สมดุลที่ดีที่สุด

การกำหนดค่า Response Quality Difference: การเจาะลึก

Response Quality Difference (RQD) เป็นพารามิเตอร์สำคัญใน Intelligent Prompt Routing ของ Amazon Bedrock ช่วยให้ผู้ใช้สามารถปรับแต่งสมดุลระหว่างคุณภาพการตอบสนองและประสิทธิภาพด้านต้นทุน การตั้งค่า RQD ที่ต่ำกว่าจะผลักดันให้ระบบจัดลำดับความสำคัญของโมเดลที่ให้การตอบสนองที่สอดคล้องกับ fallback model ที่เลือกอย่างใกล้ชิด เพื่อให้มั่นใจถึงความสอดคล้องและความน่าเชื่อถือ ในทางกลับกัน RQD ที่สูงกว่าจะช่วยให้ router สำรวจโมเดลที่หลากหลายมากขึ้น ซึ่งอาจเสียสละคุณภาพบางส่วนเพื่อประหยัดต้นทุนหรือปรับปรุง latency

การเลือก fallback model เป็นสิ่งสำคัญ เนื่องจากเป็นเกณฑ์มาตรฐานที่ใช้ประเมินโมเดลอื่นๆ สำหรับสถานการณ์ที่ต้องการความแม่นยำและรายละเอียดในระดับสูงสุด การเลือกโมเดลระดับบนสุดเช่น Claude 3 Sonnet เป็น fallback จะทำให้แน่ใจว่า router จะพิจารณาเฉพาะโมเดลที่สามารถให้ผลลัพธ์ที่เทียบเคียงได้เท่านั้น ในสถานการณ์ที่ต้นทุนเป็นข้อกังวลหลัก สามารถใช้โมเดลที่ประหยัดกว่าเช่น Claude 3 Haiku เป็น fallback ทำให้ router สามารถปรับให้เหมาะสมเพื่อประสิทธิภาพในขณะที่ยังคงรักษาระดับคุณภาพที่ยอมรับได้

พิจารณาสถานการณ์ที่สถาบันการเงินกำลังใช้ LLM เพื่อให้การสนับสนุนลูกค้า หากสถาบันตั้งค่า Claude 3 Sonnet เป็น fallback model ด้วย RQD ที่ 5% ระบบ Intelligent Prompt Routing จะส่งคำถามไปยังโมเดลที่ให้การตอบสนองภายใน 5% ของคุณภาพของ Claude 3 Sonnet เท่านั้น เพื่อให้มั่นใจว่าลูกค้าจะได้รับการสนับสนุนที่มีคุณภาพสูงอย่างสม่ำเสมอ แต่นั่นอาจมาพร้อมกับต้นทุนที่สูงกว่า หากสถาบันตั้งค่า Claude 3 Haiku เป็น fallback ด้วย RQD ที่ 15% แทน ระบบสามารถสำรวจโมเดลที่หลากหลายมากขึ้น ซึ่งอาจลดต้นทุนในขณะที่ยังคงให้การตอบสนองที่แม่นยำพอสมควร

ความสามารถในการปรับ RQD แบบไดนามิกตาม metrics ประสิทธิภาพแบบเรียลไทม์ยังช่วยเพิ่มความสามารถในการปรับตัวของระบบ Intelligent Prompt Routing อีกด้วย โดยการตรวจสอบคุณภาพการตอบสนอง ต้นทุน และ latency อย่างต่อเนื่อง router สามารถปรับ RQD โดยอัตโนมัติเพื่อรักษาสมดุลที่ต้องการระหว่างปัจจัยเหล่านี้ เพื่อให้มั่นใจว่าระบบได้รับการปรับให้เหมาะสมอย่างต่อเนื่องแม้ว่า workloads และความสามารถของโมเดลจะพัฒนาไปตามกาลเวลา

Use Cases ขั้นสูงและการปรับแต่ง

นอกเหนือจากการกำหนดค่าเริ่มต้นแล้ว Intelligent Prompt Routing ของ Amazon Bedrock ยังมีตัวเลือกการปรับแต่งขั้นสูงเพื่อให้เหมาะกับ use cases ที่เฉพาะเจาะจง ผู้ใช้สามารถกำหนด routing rules แบบกำหนดเองตามปัจจัยต่างๆ เช่น ความซับซ้อนของ query ความละเอียดอ่อนของข้อมูล หรือเวลาตอบสนองที่ต้องการ สิ่งนี้ช่วยให้สามารถควบคุมได้อย่างละเอียดว่า prompts ได้รับการประมวลผลอย่างไร ทำให้มั่นใจได้ว่าโมเดลที่เหมาะสมที่สุดจะถูกใช้สำหรับแต่ละงานเสมอ

ตัวอย่างเช่น ผู้ให้บริการด้านการดูแลสุขภาพอาจกำหนดค่า routing rules แบบกำหนดเองเพื่อให้แน่ใจว่าข้อมูลผู้ป่วยที่ละเอียดอ่อนจะได้รับการประมวลผลโดยโมเดลที่เป็นไปตามข้อบังคับ HIPAA เสมอ ในทำนองเดียวกัน บริษัทกฎหมายอาจจัดลำดับความสำคัญของโมเดลที่เป็นที่รู้จักในด้านความแม่นยำและความน่าเชื่อถือเมื่อประมวลผลเอกสารทางกฎหมายที่สำคัญ

ความสามารถในการรวม custom metrics เข้ากับระบบ Intelligent Prompt Routing ยังช่วยเพิ่มความสามารถในการปรับตัวอีกด้วย ผู้ใช้สามารถกำหนด metrics ของตนเองเพื่อวัดลักษณะเฉพาะของ