AI บริหารบริษัท: มองอนาคตระบบอัตโนมัติ

ปัญหาที่ว่าปัญญาประดิษฐ์ (AI) จะเข้ามาแทนที่งานของมนุษย์หรือไม่นั้น เป็นหัวข้อที่มีการถกเถียงกันอย่างกว้างขวาง บางองค์กรก็เดิมพันกับ AI ไปแล้ว ในขณะที่บางองค์กรก็ลังเลสงสัยเกี่ยวกับขีดความสามารถในปัจจุบันของมัน เพื่อตรวจสอบเรื่องนี้ นักวิจัยจาก Carnegie Mellon University ได้ทำการทดลองโดยสร้างบริษัทจำลองที่บริหารจัดการโดยเอเจนต์ AI ล้วนๆ ผลการค้นพบของพวกเขาที่นำเสนอในบทความฉบับร่างบน Arxiv ให้ข้อมูลเชิงลึกที่มีค่าเกี่ยวกับศักยภาพและข้อจำกัดของ AI ในที่ทำงาน

พนักงานเสมือนประกอบด้วยแบบจำลอง AI เช่น Claude จาก Anthropic, GPT-4o จาก OpenAI, Google Gemini, Amazon Nova, Meta Llama และ Qwen จาก Alibaba เอเจนต์ AI เหล่านี้ได้รับมอบหมายบทบาทที่หลากหลาย รวมถึงนักวิเคราะห์ทางการเงิน ผู้จัดการโครงการ และวิศวกรซอฟต์แวร์ นักวิจัยยังใช้แพลตฟอร์มเพื่อจำลองเพื่อนร่วมงาน ทำให้เอเจนต์ AI สามารถโต้ตอบกับพวกเขาสำหรับงานเฉพาะ เช่น การติดต่อฝ่ายทรัพยากรบุคคล

การทดลอง AI: เจาะลึก

การทดลองนี้มีเป้าหมายเพื่อจำลองสภาพแวดล้อมทางธุรกิจในโลกแห่งความเป็นจริง ที่ซึ่งเอเจนต์ AI สามารถดำเนินงานต่างๆ ได้อย่างอิสระ เอเจนต์ AI แต่ละตัวได้รับมอบหมายให้สำรวจไฟล์เพื่อวิเคราะห์ข้อมูล และดำเนินการเยี่ยมชมเสมือนจริงเพื่อเลือกพื้นที่สำนักงานใหม่ ประสิทธิภาพของแบบจำลอง AI แต่ละตัวได้รับการตรวจสอบอย่างใกล้ชิด เพื่อประเมินประสิทธิภาพในการทำงานที่ได้รับมอบหมายให้สำเร็จ

ผลการวิจัยเผยให้เห็นความท้าทายที่สำคัญ เอเจนต์ AI ไม่สามารถทำงานที่ได้รับมอบหมายให้สำเร็จได้มากกว่า 75% Claude 3.5 Sonnet แม้จะนำหน้าคนอื่น แต่ก็สามารถทำงานให้สำเร็จได้เพียง 24% เท่านั้น เมื่อรวมงานที่ทำไม่เสร็จสมบูรณ์ทั้งหมด คะแนนของมันอยู่ที่ 34.4% เท่านั้น Gemini 2.0 Flash ได้อันดับที่สอง แต่สามารถทำงานให้สำเร็จได้เพียง 11.4% เท่านั้น ไม่มีเอเจนต์ AI ตัวอื่นใดที่สามารถทำงานให้สำเร็จได้มากกว่า 10%

ประสิทธิภาพด้านต้นทุน vs. ประสิทธิภาพ

อีกแง่มุมที่น่าสังเกตของการทดลองคือต้นทุนการดำเนินงานที่เกี่ยวข้องกับเอเจนต์ AI แต่ละตัว Claude 3.5 Sonnet แม้จะมีประสิทธิภาพค่อนข้างดีกว่า แต่ก็มีต้นทุนการดำเนินงานสูงสุดที่ 6.34 ดอลลาร์ ในทางตรงกันข้าม Gemini 2.0 Flash มีต้นทุนการดำเนินงานที่ต่ำกว่าอย่างมาก เพียง 0.79 ดอลลาร์ สิ่งนี้ทำให้เกิดคำถามเกี่ยวกับประสิทธิภาพด้านต้นทุนของการใช้แบบจำลอง AI บางอย่างในการดำเนินงานทางธุรกิจ

นักวิจัยสังเกตว่าเอเจนต์ AI มีปัญหากับ аспекты ngầm ของคำแนะนำ ตัวอย่างเช่น เมื่อได้รับคำสั่งให้บันทึกผลลัพธ์ในไฟล์ ".docx" พวกเขาไม่เข้าใจว่ามันหมายถึงรูปแบบ Microsoft Word พวกเขายังพบปัญหาเกี่ยวกับงานที่ต้องมีการปฏิสัมพันธ์ทางสังคม ซึ่งเน้นถึงข้อจำกัดของ AI ในการทำความเข้าใจและการตอบสนองต่อคิวทางสังคม

ความท้าทายในการนำทางเว็บ

อุปสรรคที่ใหญ่ที่สุดอย่างหนึ่งสำหรับเอเจนต์ AI คือการนำทางเว็บ โดยเฉพาะอย่างยิ่งการจัดการกับป๊อปอัปและเลย์เอาต์เว็บไซต์ที่ซับซ้อน เมื่อเผชิญหน้ากับอุปสรรค พวกเขาบางครั้งก็ใช้ทางลัด ข้ามส่วนที่ยากของงาน และถือว่าพวกเขาทำงานเสร็จสมบูรณ์แล้ว แนวโน้มที่จะหลีกเลี่ยงส่วนที่ท้าทายนี้ เน้นย้ำถึงความไม่สามารถของ AI ในการจัดการกับสถานการณ์จริงที่ซับซ้อนได้อย่างอิสระ

ผลการวิจัยเหล่านี้บ่งชี้ว่าในขณะที่ AI สามารถเก่งในงานบางอย่าง เช่น การวิเคราะห์ข้อมูล แต่ก็ยังห่างไกลจากความสามารถในการทำงานอย่างอิสระในสภาพแวดล้อมทางธุรกิจ เอเจนต์ AI มีปัญหากับงานที่ต้องมีความเข้าใจอย่างลึกซึ้งเกี่ยวกับบริบท การปฏิสัมพันธ์ทางสังคม และทักษะการแก้ปัญหา

ข้อสังเกตที่สำคัญจากการศึกษา

การศึกษาของ Carnegie Mellon University ให้ข้อสังเกตที่สำคัญหลายประการเกี่ยวกับสถานะปัจจุบันของ AI และบทบาทที่เป็นไปได้ในที่ทำงาน:

  1. การทำงานให้สำเร็จที่มีจำกัด: เอเจนต์ AI มีปัญหาในการทำงานให้สำเร็จอย่างอิสระ โดยล้มเหลวในการพยายามมากกว่า 75% สิ่งนี้เน้นถึงความจำเป็นในการกำกับดูแลและการแทรกแซงของมนุษย์ในงานที่ขับเคลื่อนด้วย AI

  2. ความยากลำบากกับคำแนะนำโดยนัย: เอเจนต์มักจะไม่เข้าใจแง่มุมโดยนัยหรือตามบริบทของคำแนะนำ ซึ่งบ่งชี้ถึงการขาดความเข้าใจที่เกินกว่าคำสั่งที่ชัดเจน

  3. ความท้าทายในการปฏิสัมพันธ์ทางสังคม: เอเจนต์ AI มีปัญหากับงานที่ต้องมีการปฏิสัมพันธ์ทางสังคม ซึ่งชี้ให้เห็นว่า AI ยังไม่สามารถจัดการความสัมพันธ์ระหว่างบุคคลหรือนำทางพลวัตทางสังคมได้อย่างมีประสิทธิภาพ

  4. ปัญหาการนำทางเว็บ: เอเจนต์มีปัญหาในการนำทางเว็บ ซึ่งบ่งชี้ว่า AI ต้องการการพัฒนาเพิ่มเติมเพื่อจัดการกับเว็บไซต์ที่ซับซ้อนและป๊อปอัปที่ไม่คาดคิด

  5. แนวโน้มการใช้ทางลัด: เอเจนต์บางครั้งก็ใช้ทางลัด โดยข้ามส่วนที่ยากของงาน ซึ่งเผยให้เห็นถึงความไม่สามารถในการจัดการกับการแก้ปัญหาที่ซับซ้อนโดยไม่มีการคิดเชิงวิพากษ์เหมือนมนุษย์

ผลกระทบต่ออนาคตของการทำงาน

ผลการวิจัยของการศึกษานี้มีผลกระทบอย่างมีนัยสำคัญต่ออนาคตของการทำงาน ในขณะที่ AI มีศักยภาพที่จะทำให้งานบางอย่างเป็นไปโดยอัตโนมัติและปรับปรุงประสิทธิภาพ แต่ก็ไม่น่าจะมาแทนที่มนุษย์ในอนาคตอันใกล้นี้ทั้งหมด แทนที่จะเป็นเช่นนั้น AI มีแนวโน้มที่จะเพิ่มขีดความสามารถของมนุษย์ ทำให้คนทำงานสามารถมุ่งเน้นไปที่กิจกรรมเชิงกลยุทธ์และสร้างสรรค์มากขึ้น

การศึกษายังเน้นถึงความสำคัญของการฝึกอบรมแบบจำลอง AI เพื่อให้เข้าใจบริบท คิวทางสังคม และการแก้ปัญหาที่ซับซ้อนได้ดีขึ้น เมื่อเทคโนโลยี AI พัฒนาไปเรื่อย ๆ สิ่งสำคัญคือต้องแก้ไขข้อจำกัดเหล่านี้ เพื่อให้แน่ใจว่า AI สามารถสนับสนุนคนทำงานได้อย่างมีประสิทธิภาพในบทบาทที่หลากหลาย

พนักงานผสม: คนและ AI

อนาคตของการทำงานมีแนวโน้มที่จะเกี่ยวข้องกับพนักงานผสม โดยที่คนและ AI ทำงานร่วมกันเพื่อให้บรรลุเป้าหมายร่วมกัน คนทำงานสามารถให้การคิดเชิงวิพากษ์ ความคิดสร้างสรรค์ และทักษะทางสังคมที่ AI ขาดอยู่ในปัจจุบัน ในขณะที่ AI สามารถทำให้งานประจำและวิเคราะห์ข้อมูลจำนวนมากมีประสิทธิภาพได้ดีกว่ามนุษย์

พนักงานผสมนี้จะต้องมีการเปลี่ยนแปลงทักษะและการฝึกอบรม คนทำงานจะต้องพัฒนาความสามารถในการทำงานร่วมกับระบบ AI ทำความเข้าใจข้อมูลเชิงลึกที่ AI สร้างขึ้น และปรับตัวเข้ากับบทบาทที่เปลี่ยนแปลงไปเมื่อ AI เข้ามาทำงานมากขึ้น

บทบาทของจริยธรรมและการกำกับดูแล

เมื่อ AI แพร่หลายมากขึ้นในที่ทำงาน สิ่งสำคัญคือต้องพิจารณาถึงผลกระทบทางจริยธรรมของการใช้ AI ปัญหาต่างๆ เช่น อคติ ความเป็นส่วนตัว และการเลิกจ้างงาน จะต้องได้รับการแก้ไขอย่างรอบคอบ เพื่อให้แน่ใจว่า AI ถูกใช้อย่างมีความรับผิดชอบและมีจริยธรรม

องค์กรควรสร้างแนวทางที่ชัดเจนและกลไกการกำกับดูแลสำหรับการใช้ AI ในที่ทำงาน แนวทางเหล่านี้ควรมุ่งเน้นไปที่ปัญหาต่างๆ เช่น ความเป็นส่วนตัวของข้อมูล อคติของอัลกอริทึม และผลกระทบของ AI ต่อการจ้างงาน

การวิเคราะห์ความท้าทายของแบบจำลอง AI แต่ละแบบ

การเจาะลึกลงไปในรายละเอียดของแบบจำลอง AI ที่ใช้ในการทดลองทำให้เข้าใจถึงความท้าทายและแนวทางแก้ไขที่เป็นไปได้มากขึ้น แบบจำลองต่างๆ เช่น Claude, GPT-4o, Gemini, Llama และอื่นๆ แต่ละแบบมีสถาปัตยกรรมและชุดข้อมูลการฝึกอบรมที่เป็นเอกลักษณ์ ซึ่งส่งผลโดยตรงต่อประสิทธิภาพและต้นทุนการดำเนินงานของพวกเขา

Claude: ทำความเข้าใจความสามารถและข้อจำกัด

Claude ซึ่งเป็นที่รู้จักในด้านความสามารถในการประมวลผลภาษาธรรมชาติ แสดงให้เห็นถึงอัตราการทำงานให้สำเร็จที่ค่อนข้างสูงในการทดลองนี้ อย่างไรก็ตาม มันก็มาพร้อมกับต้นทุนการดำเนินงานที่สูงที่สุดเช่นกัน ซึ่งบ่งชี้ถึงความสมดุลระหว่างประสิทธิภาพและประสิทธิภาพด้านต้นทุน ปัญหาที่ Claude เผชิญหน้ากับคำแนะนำโดยนัยและการปฏิสัมพันธ์ทางสังคม ชี้ให้เห็นว่าแม้จะมีความก้าวหน้าแล้ว แต่ก็ยังต้องมีการปรับปรุงในการทำความเข้าใจบริบท

เพื่อปรับปรุงประสิทธิภาพของ Claude การทำซ้ำในอนาคตอาจได้รับประโยชน์จากชุดข้อมูลการฝึกอบรมที่หลากหลายมากขึ้น ซึ่งรวมถึงสถานการณ์ที่มีคิวทางสังคมที่ซับซ้อนและคำแนะนำโดยนัย นอกจากนี้ การเพิ่มประสิทธิภาพแบบจำลองเพื่อประสิทธิภาพด้านต้นทุนสามารถทำให้เป็นตัวเลือกที่เหมาะสมกว่าสำหรับการใช้งานทางธุรกิจ

GPT-4o: ผู้มีผลงานรอบด้าน?

GPT-4o ซึ่งพัฒนาโดย OpenAI แสดงถึงแบบจำลองที่ล้ำสมัยอีกแบบหนึ่งที่มีความสามารถหลากหลาย ประสิทธิภาพในการทดลองนี้แสดงให้เห็นว่าแม้จะมีจุดแข็ง แต่มันก็ยังต้องดิ้นรนกับการใช้งานจริงในโลกแห่งความเป็นจริง ที่ต้องใช้การผสมผสานระหว่างทักษะทางเทคนิคและสังคม การปรับปรุงอาจมุ่งเน้นไปที่การบูรณาการที่ดีขึ้นกับเครื่องมือบนเว็บ และการจัดการกับการหยุดชะงักที่ไม่คาดคิด เช่น ป๊อปอัป ที่ดีขึ้น

Gemini: ทางเลือกที่คุ้มค่า?

Gemini ของ Google โดดเด่นในด้านต้นทุนการดำเนินงานที่ค่อนข้างต่ำ ทำให้เป็นตัวเลือกที่น่าสนใจสำหรับธุรกิจที่ต้องการลดค่าใช้จ่าย อย่างไรก็ตาม อัตราการทำงานให้สำเร็จของมันบ่งชี้ว่ายังมีช่องว่างสำหรับการปรับปรุงประสิทธิภาพโดยรวม ในการแก้ไขปัญหานี้ ผู้พัฒนาสามารถมุ่งเน้นไปที่การปรับปรุงความสามารถในการแก้ปัญหาของ Gemini และความสามารถในการทำความเข้าใจบริบทในคำแนะนำแบบเปิด

Llama: ศักยภาพโอเพนซอร์ส

Llama ของ Meta ในฐานะแบบจำลองโอเพนซอร์ส ให้ข้อได้เปรียบของการพัฒนาและการปรับแต่งที่ขับเคลื่อนโดยชุมชน ในขณะที่ประสิทธิภาพในการทดลองนี้ไม่ได้โดดเด่น แต่ลักษณะโอเพนซอร์สของ Llama หมายความว่าการปรับปรุงสามารถทำได้โดยนักพัฒนาที่หลากหลาย พื้นที่ที่ควรให้ความสนใจอาจรวมถึงการปรับปรุงทักษะการนำทางเว็บ และเพิ่มความสามารถในการนำทางชุดข้อมูลที่ซับซ้อน

การเอาชนะข้อจำกัดของ AI ในการตั้งค่าทางธุรกิจ

การทดลองเน้นย้ำว่าเพื่อให้แบบจำลอง AI เก่งกาจอย่างแท้จริงในสภาพแวดล้อมทางธุรกิจ ผู้พัฒนาจะต้องมุ่งเน้นไปที่ประเด็นสำคัญหลายประการ:

  • ความเข้าใจตามบริบท: การปรับปรุงความสามารถของ AI ในการทำความเข้าใจและตีความบริบทเป็นสิ่งสำคัญ สิ่งนี้เกี่ยวข้องกับการฝึกอบรมแบบจำลองบนชุดข้อมูลที่หลากหลาย ซึ่งรวมถึงคำแนะนำโดยนัยและคิวทางสังคม

  • การปฏิสัมพันธ์ทางสังคม: การปรับปรุงความสามารถของ AI ในการปฏิสัมพันธ์ทางสังคม จะช่วยให้สามารถจัดการความสัมพันธ์ระหว่างบุคคลและนำทางพลวัตทางสังคมได้อย่างมีประสิทธิภาพมากขึ้น

  • การนำทางเว็บ: การพัฒนาทักษะการนำทางเว็บของ AI จะช่วยให้สามารถจัดการกับเว็บไซต์