Gemini 2.5: ปลดปล่อยศักยภาพปัญญาประดิษฐ์ | th

ที่งาน I/O 2025, Google ได้เปิดตัวชุดอัปเดตที่ก้าวล้ำสำหรับโมเดลในซีรีส์ Gemini 2.5 พร้อมด้วยคุณสมบัติทดลองที่เป็นนวัตกรรมใหม่ที่รู้จักกันในชื่อ Deep Think ซึ่งออกแบบมาเพื่อเพิ่มขีดความสามารถในการให้เหตุผลของโมเดล 2.5 Pro ความก้าวหน้าเหล่านี้ถือเป็นการก้าวกระโดดครั้งสำคัญในด้านปัญญาประดิษฐ์ ซึ่งมอบประสิทธิภาพ ประสิทธิผล และความสามารถรอบด้านในระดับที่ไม่เคยมีมาก่อนให้กับนักพัฒนาและผู้ใช้

โมเดล Gemini 2.5 Pro ได้รับการยกย่องอย่างกว้างขวางจากนักพัฒนาว่าเป็นโซลูชันชั้นนำสำหรับงานเขียนโค้ด ในขณะที่โมเดล 2.5 Flash กำลังจะได้รับการอัปเกรดครั้งใหญ่ นอกจากนี้ Google ยังได้แนะนำขีดความสามารถใหม่ๆ มากมายในโมเดลต่างๆ ซึ่งรวมถึง Deep Think ซึ่งเป็นโหมดการให้เหตุผลขั้นสูงเชิงทดลองที่ปรับแต่งมาโดยเฉพาะสำหรับโมเดล 2.5 Pro

ในการประกาศก่อนหน้านี้ Google ได้เปิดตัว Gemini 2.5 Pro ซึ่งเป็นโมเดลที่ฉลาดที่สุดเท่าที่เคยมีมา และเร่งการเปิดตัวอัปเดต I/O เพื่อเสริมศักยภาพให้นักพัฒนาในการสร้างแอปพลิเคชันบนเว็บที่ยอดเยี่ยม วันนี้ บริษัทกำลังแบ่งปันการปรับปรุงเพิ่มเติมให้กับซีรีส์โมเดล Gemini 2.5 ซึ่งมีผลงานที่โดดเด่น:

Gemini 2.5 Pro เหนือความคาดหมายทั้งหมด แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในการวัดผลทางวิชาการ ขณะนี้ถือครองตำแหน่งสูงสุดในกระดานผู้นำ WebDev Arena และ LMArena ซึ่งเป็นการยืนยันสถานะในฐานะโมเดลชั้นนำของโลกสำหรับการเขียนโค้ดและความช่วยเหลือด้านการเรียนรู้
คุณสมบัติใหม่ๆ กำลังถูกรวมเข้ากับทั้ง 2.5 Pro และ 2.5 Flash ซึ่งรวมถึงเอาต์พุตเสียงแบบเนทีฟสำหรับประสบการณ์การสนทนาที่เป็นธรรมชาติและน่าดึงดูดยิ่งขึ้น มาตรการรักษาความปลอดภัยขั้นสูง และการบูรณาการความสามารถในการใช้งานคอมพิวเตอร์ของ Project Mariner โมเดล 2.5 Pro จะได้รับการปรับปรุงเพิ่มเติมด้วย Deep Think ซึ่งเป็นโหมดทดลองที่ออกแบบมาเพื่อปรับปรุงการให้เหตุผลสำหรับปัญหาทางคณิตศาสตร์และการเขียนโค้ดที่ซับซ้อน
Google ยังคงมุ่งมั่นที่จะปรับปรุงประสบการณ์ของนักพัฒนาผ่านการผนวกรวมบทสรุปความคิดใน Gemini API และ Vertex AI บทสรุปเหล่านี้ให้ความโปร่งใสที่สูงขึ้น งบประมาณการคิดที่ขยายออกไปสำหรับ 2.5 Pro เพื่อให้มั่นใจถึงการควบคุมที่มากขึ้น และการสนับสนุนสำหรับเครื่องมือ MCP ใน Gemini API และ SDK สำหรับการเข้าถึงเครื่องมือโอเพนซอร์สที่หลากหลายยิ่งขึ้น
ขณะนี้โมเดล 2.5 Flash สามารถเข้าถึงได้จากทั่วโลกภายในแอป Gemini เวอร์ชันอัปเดตจะพร้อมใช้งานเร็วๆ นี้ใน Google AI Studio สำหรับนักพัฒนาและใน Vertex AI สำหรับองค์กร ซึ่งมีกำหนดในช่วงต้นเดือนมิถุนายน โดย 2.5 Pro จะตามมาในไม่ช้าหลังจากนั้น

ความคืบหน้าอันน่าทึ่งนี้เป็นผลมาจากการอุทิศตนอย่างไม่ย่อท้อของทีมงาน Google ซึ่งมุ่งมั่นที่จะปรับปรุงเทคโนโลยีอย่างต่อเนื่องและนำไปใช้ในลักษณะที่ปลอดภัยและมีความรับผิดชอบ

เปิดตัวประสิทธิภาพที่เหนือกว่าของ 2.5 Pro

โมเดล 2.5 Pro ได้รับการอัปเดตเมื่อเร็วๆ นี้เพื่อเสริมศักยภาพให้นักพัฒนาในการสร้างแอปพลิเคชันบนเว็บที่มีการโต้ตอบและมีคุณสมบัติที่หลากหลายมากขึ้น ขอขอบคุณสำหรับผลตอบรับเชิงบวกที่ได้รับจากผู้ใช้และนักพัฒนา และจะยังคงมีการปรับปรุงอย่างต่อเนื่องตามข้อมูลที่ผู้ใช้ป้อน

นอกเหนือจากประสิทธิภาพที่โดดเด่นในการวัดผลทางวิชาการแล้ว 2.5 Pro เวอร์ชันล่าสุดยังได้ครองตำแหน่งสูงสุดในกระดานผู้นำการเขียนโค้ดยอดนิยม WebDev Arena ด้วยคะแนน ELO ที่น่าประทับใจ 1415 นอกจากนี้ยังเป็นผู้นำในกระดานผู้นำทั้งหมดของ LMArena ซึ่งประเมินความชอบของมนุษย์ตามเกณฑ์ต่างๆ ยิ่งไปกว่านั้น เมื่อติดตั้งหน้าต่างบริบท 1 ล้านโทเค็น 2.5 Pro มอบประสิทธิภาพที่ล้ำสมัยในบริบทที่ยาวนานและความเข้าใจวิดีโอ

ด้วยการบูรณาการ LearnLM ซึ่งเป็นตระกูลโมเดลที่พัฒนาขึ้นโดยความร่วมมือกับผู้เชี่ยวชาญด้านการศึกษา 2.5 Pro ได้กลายเป็นโมเดลชั้นนำสำหรับการเรียนรู้ ในการเปรียบเทียบโดยตรงเพื่อประเมินการสอนและประสิทธิภาพ ผู้ให้การศึกษาและผู้เชี่ยวชาญชื่นชอบ Gemini 2.5 Pro มากกว่าโมเดลอื่นๆ ในสถานการณ์ที่หลากหลาย นอกจากนี้ยังเหนือกว่าโมเดลชั้นนำในหลักการทั้งห้าของวิทยาศาสตร์การเรียนรู้ ซึ่งใช้ในการสร้างระบบ AI สำหรับการเรียนรู้ สิ่งนี้เน้นย้ำถึงประสิทธิภาพในการบริบททางการศึกษา โดยนำเสนอ กลยุทธ์การสอนที่ปรับให้เหมาะสมและมีประสิทธิภาพ

Deep Think: ก้าวข้ามขีดจำกัดของการให้เหตุผล

Google กำลังสำรวจขีดจำกัดของความสามารถทางปัญญาของ Gemini อย่างจริงจังและเริ่มทดลองกับโหมดการให้เหตุผลขั้นสูงที่เรียกว่า Deep Think โหมดนวัตกรรมนี้ใช้เทคนิคการวิจัยที่ล้ำสมัย ช่วยให้โมเดลประเมินสมมติฐานหลายข้อก่อนที่จะกำหนดการตอบสนอง แนวทางนี้ช่วยเพิ่มกระบวนการตัดสินใจ ทำให้ได้ผลลัพธ์ที่ซับซ้อนและแตกต่างมากขึ้นในสถานการณ์ที่ซับซ้อน

Gemini 2.5 Pro Deep Think ทำคะแนนได้อย่างน่าประทับใจในการแข่งขัน USAMO ปี 2025 ซึ่งได้รับการยอมรับอย่างกว้างขวางว่าเป็นหนึ่งในการวัดผลทางคณิตศาสตร์ที่ท้าทายที่สุด นอกจากนี้ยังมีความโดดเด่นใน LiveCodeBench ซึ่งเป็นการวัดผลที่ต้องการสำหรับการเขียนโค้ดระดับการแข่งขัน และได้คะแนน 84.0% ใน MMMU ซึ่งประเมินการให้เหตุผลแบบมัลติโมดอล ผลลัพธ์เหล่านี้เน้นย้ำถึงประสิทธิภาพที่ยอดเยี่ยมของ Deep Think ในการจัดการงานที่ซับซ้อน ซึ่งบ่งบอกถึงอนาคตที่สดใสสำหรับการแก้ปัญหา AI ขั้นสูง

เนื่องจาก 2.5 Pro Deep Think กำลังผลักดันขอบเขตของสิ่งที่เป็นไปได้ Google จึงใช้เวลาเพิ่มเติมในการดำเนินการประเมินความปลอดภัยอย่างละเอียดถี่ถ้วนและขอข้อมูลเพิ่มเติมจากผู้เชี่ยวชาญด้านความปลอดภัย บริษัทยังจะให้สิทธิ์เข้าถึง Gemini API แก่ผู้ทดสอบที่เลือกเพื่อรวบรวมข้อเสนอแนะก่อนที่จะเผยแพร่อย่างกว้างขวาง แนวทางที่ระมัดระวังและรอบคอบนี้มีจุดมุ่งหมายเพื่อให้มั่นใจถึงการใช้งานเทคโนโลยี AI ขั้นสูงอย่างมีความรับผิดชอบ

ขอแนะนำ 2.5 Flash ที่ได้รับการปรับปรุง

โมเดล 2.5 Flash ซึ่งขึ้นชื่อในด้านประสิทธิภาพและความคุ้มค่า ได้รับการปรับปรุงในหลายมิติ มีการแสดงให้เห็นถึงการปรับปรุงในการวัดผลที่สำคัญสำหรับการให้เหตุผล มัลติโมดอล การจัดการโค้ด และบริบทที่ยาวนาน ในขณะเดียวกันก็มีประสิทธิภาพมากขึ้น โดยใช้โทเค็นน้อยลง 20-30% ในการประเมิน สิ่งนี้เน้นย้ำถึงประสิทธิภาพที่ปรับให้เหมาะสมและการจัดการทรัพยากร

ขณะนี้ 2.5 Flash ใหม่พร้อมให้ใช้งานใน Google AI Studio สำหรับนักพัฒนา ใน Vertex AI สำหรับแอปพลิเคชันระดับองค์กร และในแอป Gemini สำหรับผู้ใช้ทั่วไป มีกำหนดวางจำหน่ายทั่วไปในช่วงต้นเดือนมิถุนายน ทำให้สามารถเข้าถึงได้สำหรับสภาพแวดล้อมการผลิต

ความสามารถใหม่ของ Gemini 2.5

การปรับปรุงเอาต์พุตเสียงแบบเนทีฟและ Live API

Live API ขอแนะนำเวอร์ชันตัวอย่างของการป้อนข้อมูลด้วยภาพและเสียงและการสนทนาเอาต์พุตเสียงแบบเนทีฟ ช่วยให้ผู้ใช้สร้างประสบการณ์การสนทนาด้วย Gemini ที่เป็นธรรมชาติและสื่ออารมณ์ได้มากขึ้น คุณสมบัตินี้ช่วยให้แอปพลิเคชันมีส่วนร่วมและโต้ตอบได้มากขึ้น ความสามารถของ AI ในการสร้างการตอบสนองทางเสียงที่เหมือนจริงช่วยเพิ่มปฏิสัมพันธ์ของผู้ใช้อย่างมากโดยการสร้างวิธีการสื่อสารที่ใช้งานง่ายยิ่งขึ้น

Live API ให้อำนาจแก่ผู้ใช้ในการควบคุมโทนเสียง สำเนียง และรูปแบบการพูดของโมเดล ตัวอย่างเช่น สามารถสั่งให้โมเดลใช้เสียงที่น่าทึ่งเมื่อเล่าเรื่อง นอกจากนี้ยังรองรับการใช้เครื่องมือ ทำให้สามารถค้นหาในนามของผู้ใช้ ความยืดหยุ่นในการควบคุมเสียงและการเข้าถึงเครื่องมือภายนอกทำให้โมเดลมีความหลากหลายและมีคุณค่าอย่างยิ่งในสถานการณ์การใช้งานที่หลากหลาย

ผู้ใช้สามารถทดลองกับคุณสมบัติช่วงต้นต่างๆ ได้แก่:

การสนทนาที่มีอารมณ์: โมเดลตรวจจับอารมณ์ในเสียงของผู้ใช้และตอบสนองตามนั้น ฟังก์ชันนี้เพิ่มชั้นของความฉลาดทางอารมณ์ให้กับ AI ทำให้ปฏิสัมพันธ์เป็นส่วนตัวมากขึ้น
เสียงเชิงรุก: โมเดลละเว้นการสนทนาเบื้องหลังและรู้ว่าจะตอบสนองเมื่อใด ลดการหยุดชะงักและปรับปรุงความชัดเจน คุณสมบัตินี้ช่วยเพิ่มคุณภาพของการโต้ตอบ ทำให้การสื่อสารมีประสิทธิภาพและมุ่งเน้นมากขึ้น
การคิดใน Live API: โมเดลใช้ประโยชน์จากความสามารถในการคิดของ Gemini เพื่อรองรับงานที่ซับซ้อนมากขึ้น สิ่งนี้ช่วยให้การวิเคราะห์และการพิจารณาเชิงลึกเมื่อจัดการกับงานที่ซับซ้อน ทำให้มีค่าอย่างยิ่งในสาขาที่ต้องการโซลูชันที่แม่นยำและชาญฉลาด

Google ยังเปิดตัวตัวอย่างใหม่สำหรับฟังก์ชันแปลงข้อความเป็นเสียงในทั้ง 2.5 Pro และ 2.5 Flash ซึ่งให้การสนับสนุนครั้งแรกสำหรับผู้พูดหลายคน ทำให้สามารถแปลงข้อความเป็นเสียงด้วยสองเสียงผ่านเอาต์พุตเสียงแบบเนทีฟ คุณสมบัตินี้มีค่าอย่างยิ่งสำหรับการสร้างเรื่องเล่าและการสนทนาที่น่าดึงดูดใจในแอปพลิเคชันมัลติมีเดีย

เช่นเดียวกับการสนทนาเสียงแบบเนทีฟ การแปลงข้อความเป็นเสียงมีความชัดเจนและสามารถจับภาพความแตกต่างเล็กน้อย เช่น การกระซิบ รองรับมากกว่า 24 ภาษาและสลับไปมาระหว่างกันได้อย่างราบรื่น ทำให้เป็นเครื่องมือที่ใช้งานได้หลากหลายสำหรับการสื่อสารระดับโลก ความละเอียดอ่อนในการใช้ภาษาเหล่านี้ช่วยเพิ่มประสบการณ์ของผู้ใช้ อำนวยความสะดวกในกระบวนการสื่อสารที่ละเอียดอ่อนและเป็นส่วนตัวมากขึ้น

ความสามารถในการแปลงข้อความเป็นเสียงนี้จะพร้อมใช้งานในวันนี้ใน Gemini API

ส่วนต่อประสานคอมพิวเตอร์ที่ได้รับการปรับปรุง

Google กำลังนำความสามารถในการใช้งานคอมพิวเตอร์ของ Project Mariner มาสู่ Gemini API และ Vertex AI บริษัทที่คิดไปข้างหน้าเช่น Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company และ Cartwheel กำลังสำรวจศักยภาพ Google กำลังรอคอยการเปิดตัวที่กว้างขึ้นสำหรับนักพัฒนาเพื่อทดลองกับความสามารถนี้ในฤดูร้อนนี้ ซึ่งเป็นการปูทางสำหรับโครงการและโซลูชันที่เป็นนวัตกรรมใหม่ๆ ความสามารถในการรวมโมเดล AI เข้ากับส่วนต่อประสานคอมพิวเตอร์โดยตรงนำไปสู่โซลูชันเวิร์กโฟลว์ที่มีความคล่องตัวและมีประสิทธิภาพมากขึ้นในอุตสาหกรรมที่หลากหลาย

มาตรการรักษาความปลอดภัยที่เหนือกว่า

Google ได้เสริมความแข็งแกร่งให้กับการป้องกันภัยคุกคามด้านความปลอดภัย เช่น การแทรกข้อความแจ้งโดยอ้อมอย่างมีนัยสำคัญ ซึ่งเกี่ยวข้องกับการฝังคำแนะนำที่เป็นอันตรายในข้อมูลที่ดึงมาจากโมเดล AI แนวทางด้านความปลอดภัยใหม่ของ Google ได้เพิ่มอัตราการป้องกันของ Gemini ต่อการโจมตีจากการแทรกข้อความแจ้งโดยอ้อมระหว่างการใช้เครื่องมืออย่างมาก ทำให้ Gemini 2.5 เป็นตระกูลโมเดลที่ปลอดภัยที่สุดจนถึงปัจจุบัน ความปลอดภัยที่ได้รับการปรับปรุงนี้ช่วยให้ผู้ใช้มั่นใจได้ถึงประสบการณ์ที่ปลอดภัยและเชื่อถือได้เมื่อนำโซลูชันที่ขับเคลื่อนด้วย AI มาใช้

ประสบการณ์นักพัฒนาที่ได้รับการปรับปรุง

บทสรุปความคิด

ทั้ง 2.5 Pro และ Flash จะรวมบทสรุปความคิดไว้ใน Gemini API และใน Vertex AI ด้วย บทสรุปเหล่านี้จะนำความคิดดิบของโมเดลมาจัดระเบียบเป็นรูปแบบที่ชัดเจนพร้อมส่วนหัว รายละเอียดสำคัญ และข้อมูลเกี่ยวกับการดำเนินการของโมเดล เช่น เมื่อใช้เครื่องมือ การนำเสนอข้อมูลเชิงลึกในกระบวนการวิเคราะห์ของ AI บทสรุปความคิดช่วยในการทำความเข้าใจและแก้ไขปัญหาภายในระบบ AI ปรับปรุงประสิทธิภาพและการออกแบบระบบ

ด้วยรูปแบบที่มีโครงสร้างและคล่องตัวมากขึ้นในกระบวนการคิดของโมเดล นักพัฒนาและผู้ใช้จะพบว่าการโต้ตอบกับโมเดล Gemini นั้นง่ายต่อการเข้าใจและแก้ไขข้อผิดพลาดมากขึ้น

งบประมาณความคิด

Google เปิดตัว 2.5 Flash พร้อมงบประมาณความคิดเพื่อให้ผู้พัฒนามีการควบคุมต้นทุนมากขึ้น โดยปรับสมดุลระหว่างเวลาแฝงและคุณภาพ ขณะนี้ความสามารถนี้ได้รับการขยายไปยัง 2.5 Pro ทำให้คุณมีตัวเลือกการปรับแต่งที่ละเอียดยิ่งขึ้น การควบคุมโทเค็นที่ใช้และการเพิ่มประสิทธิภาพทรัพยากร นักพัฒนาสามารถบรรลุความสมดุลที่เหมาะสมระหว่างต้นทุนการคำนวณและประสิทธิภาพของโซลูชัน ทำให้การใช้งาน AI เป็นไปอย่างประหยัดและมีประสิทธิภาพ

สิ่งนี้ช่วยให้สามารถควบคุมจำนวนโทเค็นที่โมเดลใช้ในการคิดก่อนที่จะตอบสนอง หรือแม้กระทั่งปิดความสามารถในการคิด

Gemini 2.5 Pro ที่มีงบประมาณจะพร้อมใช้งานโดยทั่วไปสำหรับการใช้งานการผลิตที่เสถียรในอีกไม่กี่สัปดาห์ข้างหน้า พร้อมกับโมเดลที่พร้อมใช้งานโดยทั่วไป

การสนับสนุนเครื่องมือ MCP

Google ได้เพิ่มการสนับสนุน SDK ดั้งเดิมสำหรับข้อกำหนด Model Context Protocol (MCP) ใน Gemini API สำหรับการรวมเข้ากับเครื่องมือโอเพนซอร์สที่ง่ายขึ้น มีการสำรวจวิธีการปรับใช้ที่แตกต่างกัน เช่น เซิร์ฟเวอร์ MCP และเครื่องมือที่โฮสต์ เพื่อให้ผู้ใช้สร้างแอปพลิเคชัน agentic ได้ง่ายขึ้น สิ่งนี้ปรับปรุงสภาพแวดล้อมการพัฒนา AI ผ่านตัวเลือกที่หลากหลายยิ่งขึ้นสำหรับการรวมเครื่องมือและความร่วมมือในโครงการต่างๆ

นวัตกรรมอย่างต่อเนื่องเป็นกุญแจสำคัญในความมุ่งมั่นอย่างต่อเนื่องในการปรับปรุงโมเดลและประสบการณ์ของนักพัฒนา ทำให้พวกเขามีประสิทธิภาพ มีประสิทธิภาพ และตอบสนองต่อข้อเสนอแนะของนักพัฒนามากขึ้น เพิ่มความพยายามในการค้นคว้าวิจัยขั้นพื้นฐานทั้งในด้านความกว้างและความลึก เพื่อผลักดันขอบเขตความสามารถของ Gemini จะมีอะไรอีกมากมายในอนาคต

อัปเดตเมื่อ 2025-05-22

# Google # Gemini # AGI