ภารกิจของ AI เพื่อเสียงที่เหมือนมนุษย์: เปิดเผยความลับการฝึกอบรมของ xAI
การแสวงหาปัญญาประดิษฐ์ที่สามารถเลียนแบบการปฏิสัมพันธ์ของมนุษย์ได้นำไปสู่การพัฒนาที่น่าสนใจและบางครั้งก็น่ากังวล ในภารกิจการสร้างผู้ช่วย AI ที่ไม่เพียงแต่ฉลาดเท่านั้น แต่ยังเข้าถึงได้ง่าย บริษัทต่างๆ กำลังใช้วิธีการต่างๆ เพื่อฝึกฝนโมเดลเสียงของตน การเปิดเผยล่าสุดให้ความกระจ่างเกี่ยวกับความพยายามดังกล่าว: "Project Xylophone" ของ xAI
Inside Project Xylophone: Crafting Conversational AI
เอกสารที่รั่วไหลออกมาได้เปิดเผยการทำงานภายในของ Project Xylophone ซึ่งเป็นโครงการริเริ่มของ Scale AI ที่ออกแบบมาเพื่อปรับปรุงโมเดลเสียงของ xAI โครงการนี้เกี่ยวข้องกับการว่าจ้างผู้รับเหมาให้บันทึกการด้นสดสนทนาในหัวข้อที่หลากหลาย เป้าหมายหลักคือการเติมเต็มโมเดลของ xAI ด้วยคุณภาพที่เป็นธรรมชาติและเหมือนมนุษย์มากขึ้น โดยเปลี่ยนจากน้ำเสียงหุ่นยนต์ที่มักเป็นลักษณะของการโต้ตอบของ AI
ผู้รับเหมาเหล่านี้ซึ่งมาจากบริษัทติดฉลากข้อมูล Scale AI ได้รับค่าตอบแทนสำหรับการบันทึกบทสนทนากับเพื่อนร่วมงานในหัวข้อต่างๆ ตั้งแต่เรื่องธรรมดาไปจนถึงเรื่องที่สร้างสรรค์ ทั้งหมดนี้เพื่อทำให้โมเดลเสียงของ xAI ฟังดูสมจริงยิ่งขึ้น ณ เดือนเมษายน Scale AI กำลังจัดการโครงการ AI เชิงกำเนิดอย่างน้อย 10 โครงการสำหรับ xAI ซึ่งสะท้อนถึงความพยายามอย่างเข้มข้นที่ทุ่มเทให้กับพื้นที่นี้
แรงผลักดันในวงกว้างในอุตสาหกรรมสำหรับ AI ที่มีการสนทนามากขึ้น มาจากความปรารถนาที่จะดึงดูดผู้ใช้ไปยังบริการรุ่นพรีเมียมแบบชำระเงิน ด้วยการทำให้การโต้ตอบของ AI สนุกสนานและเป็นธรรมชาติมากขึ้น บริษัทต่างๆ หวังที่จะดึงดูดผู้ใช้ให้ลงทุนในเทคโนโลยีขั้นสูงเหล่านี้
The Blueprint for Conversational Training
Business Insider ได้รับชุดเอกสาร Scale AI ที่ให้ภาพรวมโดยละเอียดเกี่ยวกับวิธีการทำงานของ Project Xylophone เอกสารเหล่านี้ รวมถึงคำแนะนำของโครงการ แนวทางการตรวจสอบ และคู่มือหัวข้อสนทนา ให้ภาพรวมที่ครอบคลุมเกี่ยวกับระเบียบวิธีของโครงการ
แม้ว่าโมเดล xAI เฉพาะที่ได้รับการฝึกอบรมยังคงไม่เปิดเผยในเอกสาร แต่การมุ่งเน้นของโครงการในเรื่อง "คุณภาพเสียงและความคล่องแคล่วตามธรรมชาติ" บ่งบอกถึงการเน้นอย่างมากในการสร้างประสบการณ์ผู้ใช้ที่ราบรื่นและมีส่วนร่วม ผู้รับเหมาที่มีประสบการณ์ด้านการแสดงเสียงได้รับการสนับสนุนให้เข้าร่วมเป็นพิเศษ ซึ่งสะท้อนให้เห็นถึงความสำคัญของการแสดงเสียงในการบรรลุระดับความสมจริงที่ต้องการ
Project Xylophone มีโครงสร้างรอบองค์ประกอบหลักสองส่วน: "Conversations" และ "Grasslands" องค์ประกอบ "Conversations" เกี่ยวข้องกับทีมผู้รับเหมาสามคนที่เข้าร่วมในการสนทนาที่สมจริงผ่าน Zoom บทสนทนาเหล่านี้ได้รับคำแนะนำจากสเปรดชีตที่มีข้อความแจ้งหลายร้อยรายการ ครอบคลุมหัวข้อต่างๆ มากมาย ตั้งแต่กลยุทธ์การเอาชีวิตรอดในโลกหลังหายนะไปจนถึงการจัดการความวิตกกังวลและการวางแผนการเดินทางระหว่างประเทศ
Diving Deep into Conversation Prompts: A Glimpse into AI’s Imagination
ข้อความแจ้งบทสนทนาที่ใช้ใน Project Xylophone นำเสนอภาพรวมที่น่าสนใจเกี่ยวกับสถานการณ์และหัวข้อที่โมเดล AI กำลังได้รับการฝึกฝนให้จัดการ ข้อความแจ้งมีตั้งแต่ในทางปฏิบัติไปจนถึงเชิงปรัชญา และแม้กระทั่งเจาะลึกเข้าไปในขอบเขตของนิยายวิทยาศาสตร์
นี่คือตัวอย่างบางส่วนของตัวเริ่มต้นการสนทนาที่ใช้ในเอกสาร Scale AI:
- หากคุณกำลังออกแบบ ‘วัฒนธรรม’ สำหรับการตั้งถิ่นฐานบนดาวอังคารครั้งแรก ประเพณีบนโลกแบบใดที่คุณต้องการสร้างใหม่ และอะไรที่คุณตื่นเต้นที่จะทิ้งไว้เบื้องหลังตลอดไป?
- ‘คนร้าย’ ในชีวิตประจำวันของคุณคืออะไร ที่คุณอยากให้ทีมซูเปอร์ฮีโร่โฉบเข้ามาแก้ไขให้ทุกคน?
- หากซอมบี้บุกในวันพรุ่งนี้ สิ่งแรกที่คุณจะคว้าจากบ้านคืออะไรก่อนที่จะวิ่งหนีไป?
- ลองนึกภาพว่าคุณเป็นนักจิตวิทยาภารกิจสำหรับโคโลนีบนดาวอังคาร คุณอยากแอบหวังว่าจะพบลักษณะบุคลิกภาพหรือลักษณะเฉพาะแบบใดในเพื่อนร่วมงานของคุณ?
- ภัยพิบัติจากการประปาที่น่าจดจำที่สุดที่คุณเคยประสบในฐานะเจ้าของบ้านคืออะไร และคุณพยายามแก้ไขด้วยตัวเองหรือโทรหาความช่วยเหลือทันที?
- คุณจำได้ไหมว่าครั้งแรกที่คุณต้องขอเงินเพิ่มหรือสวัสดิการที่ดีขึ้นคือเมื่อไหร่? อะไรอยู่ในหัวของคุณ?
ข้อความแจ้งเหล่านี้ออกแบบมาเพื่อกระตุ้นการตอบสนองที่เป็นธรรมชาติและไม่ได้เขียนสคริปต์จากผู้รับเหมา ซึ่งสามารถใช้เพื่อฝึกฝนโมเดล AI เพื่อจัดการสถานการณ์การสนทนาที่หลากหลาย
คำแนะนำสำหรับการสนทนาที่ “ดี” เน้นถึงความสำคัญของการฟังดูเป็นธรรมชาติและมีอารมณ์ โดยมีการออกเสียงและการหยุดชะงักที่หลากหลาย เป้าหมายคือการเลียนแบบความฉับพลันและความไม่แน่นอนของการสนทนาของมนุษย์ในโลกแห่งความเป็นจริง
The Grasslands Approach: Unscripted and Authentic
ตรงกันข้ามกับองค์ประกอบ "Conversations" ที่มีโครงสร้าง องค์ประกอบ "Grasslands" มุ่งเน้นที่คนงานเดี่ยวที่สร้างการบันทึกเสียงที่เป็นธรรมชาติและไม่ได้เขียนสคริปต์ในภาษาแม่ของพวกเขา คนงานเหล่านี้จะได้รับประเภทบทสนทนาและหมวดหมู่ย่อย และได้รับการสนับสนุนให้ปล่อยให้บทสนทนาไหลไปอย่างอิสระ โดยมีเสียงรบกวนรอบข้างได้รับการสนับสนุน
องค์ประกอบ "Grasslands" ประกอบด้วยหมวดหมู่ย่อยหลายสิบหมวดหมู่ รวมถึง "การตั้งคำถามแบบโสกราตีส" "การเล่าเรื่องเชิงไตร่ตรอง" "สถานการณ์ความรักในราชสำนัก" "การเผชิญหน้าของวีรบุรุษ-ผู้ร้าย" และ "การแก้ปริศนาร่วมกัน" หมวดหมู่ย่อยเหล่านี้มักจะมีข้อกำหนดเฉพาะ เช่น สำเนียงที่แตกต่างกัน เอฟเฟกต์เสียง หรือรูปแบบภาษาที่ประดิษฐ์ขึ้น
แนวทาง "Grasslands" สะท้อนถึงความปรารถนาที่จะจับภาพความแตกต่างและความซับซ้อนของการสนทนาของมนุษย์ในลักษณะที่เป็นของแท้และไม่ถูกจำกัดมากขึ้น
The Economics of AI Training: A Glimpse at Compensation
ผู้รับเหมา Scale AI ที่เกี่ยวข้องกับ Project Xylophone ได้รับค่าตอบแทนสำหรับการมีส่วนร่วม ซึ่งเน้นถึงด้านเศรษฐกิจของการฝึกอบรม AI จากรายงาน ผู้รับเหมาจะได้รับเงินไม่กี่ดอลลาร์ต่องานสำหรับการทำงานของพวกเขา
โครงสร้างการชำระเงินสำหรับโครงการ "Grasslands" มีรายงานว่าเริ่มต้นที่ 3 ดอลลาร์ต่องาน แต่ต่อมาลดลงเหลือ 1 ดอลลาร์ต่องาน งานแต่ละงานเกี่ยวข้องกับการบันทึกไฟล์เสียง ซึ่งผู้รับเหมาจะอัปโหลดไปยังแพลตฟอร์ม Scale AI และถอดเสียงด้วยตนเอง
อัตราการจ่ายเงินที่ต่ำเน้นถึงแรงงานที่มองไม่เห็นซึ่งเกี่ยวข้องกับการสร้างและฝึกอบรมโมเดล AI
The Importance of Data Quality: Capturing the Nuances of Human Speech
ความสำเร็จของโมเดลเสียง AI ขึ้นอยู่กับความพร้อมใช้งานของข้อมูลคุณภาพสูงจำนวนมหาศาล Project Xylophone สะท้อนถึงความพยายามในการสร้างข้อมูลที่เหมาะสมโดยการสร้างสถานการณ์ในโลกแห่งความเป็นจริงขึ้นใหม่ เช่น การสนทนาที่ฟังดูเป็นธรรมชาติระหว่างผู้คน
เอกสาร "Grasslands" สั่งให้ผู้รับเหมาใส่คำเติมเต็ม เช่น "เอ่อ" ในการถอดเสียงของพวกเขาโดยชัดแจ้ง การใส่ใจในรายละเอียดนี้เน้นถึงความสำคัญของการจับภาพความแตกต่างที่ละเอียดอ่อนของคำพูดของมนุษย์ รวมถึงการหยุดชั่วคราว การลังเล และสัญญาณที่ไม่ใช่คำพูดอื่นๆ
ด้วยการรวมองค์ประกอบเหล่านี้เข้ากับข้อมูลการฝึกอบรม โมเดล AI สามารถเรียนรู้ที่จะสร้างบทสนทนาที่เป็นธรรมชาติและมีส่วนร่วมมากขึ้น
Injecting Personality into AI: A Competitive Edge
Project Xylophone เป็นส่วนหนึ่งของแนวโน้มที่กว้างขึ้นในหมู่บริษัท AI ในการใส่บุคลิกภาพลงในโมเดล AI ของพวกเขา โดยพยายามสร้างความแตกต่างให้กับตนเองในตลาดที่มีการแข่งขันสูงขึ้นเรื่อยๆ
Meta ตัวอย่างเช่น มีรายงานว่าได้ดำเนินโครงการผ่าน Scale AI โดยขอให้คนงาน Gig ฝึกฝน AI ของตนเพื่อปรับใช้บุคลิกที่แตกต่างกัน เช่น "นักมายากลที่ฉลาดและลึกลับ" หรือ "นักเรียนทฤษฎีดนตรีที่ตื่นเต้นมากเกินไป"
Sam Altman ของ OpenAI ยอมรับว่า GPT-4o ล่าสุดนั้น "ประจบประแจงและน่ารำคาญเกินไป" ทำให้ต้องรีเซ็ตเพื่อให้คำตอบเป็นธรรมชาติมากขึ้น
ความพยายามเหล่านี้สะท้อนให้เห็นถึงการตระหนักว่าโมเดล AI จำเป็นต้องเป็นมากกว่าแค่ฉลาด พวกเขายังต้องเป็นที่ชื่นชอบและเข้าถึงได้ง่ายอีกด้วย
The Ethical Dimensions of AI Training: Balancing Accuracy with Bias
เมื่อโมเดล AI มีความซับซ้อนมากขึ้น ข้อกังวลเกี่ยวกับอคติและข้อควรพิจารณาด้านจริยธรรมได้เพิ่มขึ้น ทำให้เกิดการถกเถียงเกี่ยวกับการพัฒนา AI ที่มีความรับผิดชอบ
xAI ได้ทำการตลาด Grok ในฐานะแชทบอทที่มีความโดดเด่นทางการเมืองมากกว่าเมื่อเทียบกับคู่แข่งที่ Musk เรียกว่า "ตื่นตัว" โดยมีวิธีการฝึกอบรมที่บางครั้งพึ่งพามุมมองฝ่ายขวาหรือมุมมองที่ขัดแย้งกันอย่างมาก
xAI ยังได้เพิ่มความพยายามในการควบคุมด้านที่คาดเดาไม่ได้ของ Grok ผู้ที่ได้รับการว่าจ้างใหม่กำลัง "red teaming" Grok โดยทำการทดสอบความเครียดสำหรับคำตอบที่ไม่ปลอดภัยหรือละเมิดนโยบาย โดยเฉพาะอย่างยิ่งในหัวข้อที่เป็นข้อถกเถียงและในโหมด "NSFW" หรือ "unhinged"
ความพยายามเหล่านี้เน้นถึงความท้าทายในการสร้างโมเดล AI ที่ให้ข้อมูลและมีจริยธรรม และความจำเป็นในการตรวจสอบและประเมินอย่างต่อเนื่อง
The Ongoing Evolution of AI Voice Models: A Future of Seamless Interaction
Project Xylophone และโครงการริเริ่มที่คล้ายกันแสดงถึงก้าวสำคัญไปข้างหน้าในการแสวงหาการสร้างโมเดลเสียง AI ที่สามารถโต้ตอบกับมนุษย์ได้อย่างราบรื่น ในขณะที่เทคโนโลยี AI ยังคงพัฒนาต่อไป เราคาดว่าจะได้เห็นผู้ช่วย AI ที่ซับซ้อนและฟังดูเป็นธรรมชาติมากยิ่งขึ้นในอนาคต
การแสวงหาโมเดลเสียง AI ที่เหมือนมนุษย์นั้นไม่ใช่เรื่องท้าทาย ข้อกังวลเกี่ยวกับอคติ ข้อควรพิจารณาด้านจริยธรรม และศักยภาพในการใช้งานในทางที่ผิดยังคงอยู่ อย่างไรก็ตาม ศักยภาพของเทคโนโลยีเหล่านี้มีมากมาย ตั้งแต่การปรับปรุงการเข้าถึงไปจนถึงการปรับปรุงการสื่อสารและการทำงานร่วมกัน
เมื่อโมเดลเสียง AI แพร่หลายมากขึ้น สิ่งสำคัญคือต้องจัดการกับความท้าทายเหล่านี้อย่างแข็งขัน และตรวจสอบให้แน่ใจว่าเทคโนโลยีเหล่านี้ถูกนำไปใช้อย่างมีความรับผิดชอบและมีจริยธรรม อนาคตของโมเดลเสียง AI มีแนวโน้มที่ดี แต่ขึ้นอยู่กับเราที่จะกำหนดอนาคตนั้นในลักษณะที่เป็นประโยชน์ต่อมนุษยชาติทั้งหมด
ความพยายามในการสร้าง AI ที่ฟังดูเป็นมนุษย์มากขึ้นเป็นเรื่องยาก ดังที่เห็นได้จากเอกสารที่รั่วไหล ไม่เพียงแต่ AI จะต้องพูดอย่างคล่องแคล่วด้วยไวยากรณ์ที่ถูกต้องเท่านั้น แต่ยังต้องมีบุคลิกที่ดูเหมือนจริงสำหรับคนที่กำลังพูดคุยด้วย งานที่ยิ่งใหญ่นี้คือสิ่งที่บริษัทเหล่านี้พบว่าตัวเองกำลังทำอยู่ในขณะนี้
โครงการ Xylophone: สร้าง AI เชิงสนทนา
เอกสารที่รั่วไหลได้เปิดเผยการทำงานภายในของ Project Xylophone ซึ่งเป็นโครงการริเริ่มของ Scale AI ที่ออกแบบมาเพื่อปรับปรุงโมเดลเสียงของ xAI โครงการนี้เกี่ยวข้องกับการว่าจ้างผู้รับเหมาให้บันทึกการด้นสดสนทนาในหัวข้อที่หลากหลาย เป้าหมายหลักคือการเติมเต็มโมเดลของ xAI ด้วยคุณภาพที่เป็นธรรมชาติและเหมือนมนุษย์มากขึ้น โดยเปลี่ยนจากน้ำเสียงหุ่นยนต์ที่มักเป็นลักษณะของการโต้ตอบของ AI
ผู้รับเหมาเหล่านี้ซึ่งมาจากบริษัทติดฉลากข้อมูล Scale AI ได้รับค่าตอบแทนสำหรับการบันทึกบทสนทนากับเพื่อนร่วมงานในหัวข้อต่างๆ ตั้งแต่เรื่องธรรมดาไปจนถึงเรื่องที่สร้างสรรค์ ทั้งหมดนี้เพื่อทำให้โมเดลเสียงของ xAI ฟังดูสมจริงยิ่งขึ้น ณ เดือนเมษายน Scale AI กำลังจัดการโครงการ AI เชิงกำเนิดอย่างน้อย 10 โครงการสำหรับ xAI ซึ่งสะท้อนถึงความพยายามอย่างเข้มข้นที่ทุ่มเทให้กับพื้นที่นี้
แรงผลักดันในวงกว้างในอุตสาหกรรมสำหรับ AI ที่มีการสนทนามากขึ้น มาจากความปรารถนาที่จะดึงดูดผู้ใช้ไปยังบริการรุ่นพรีเมียมแบบชำระเงิน ด้วยการทำให้การโต้ตอบของ AI สนุกสนานและเป็นธรรมชาติมากขึ้น บริษัทต่างๆ หวังที่จะดึงดูดผู้ใช้ให้ลงทุนในเทคโนโลยีขั้นสูงเหล่านี้
พิมพ์เขียวสำหรับการฝึกอบรมเชิงสนทนา
Business Insider ได้รับชุดเอกสาร Scale AI ที่ให้ภาพรวมโดยละเอียดเกี่ยวกับวิธีการทำงานของ Project Xylophone เอกสารเหล่านี้ รวมถึงคำแนะนำของโครงการ แนวทางการตรวจสอบ และคู่มือหัวข้อสนทนา ให้ภาพรวมที่ครอบคลุมเกี่ยวกับระเบียบวิธีของโครงการ
แม้ว่าโมเดล xAI เฉพาะที่ได้รับการฝึกอบรมยังคงไม่เปิดเผยในเอกสาร แต่การมุ่งเน้นของโครงการในเรื่อง "คุณภาพเสียงและความคล่องแคล่วตามธรรมชาติ" บ่งบอกถึงการเน้นอย่างมากในการสร้างประสบการณ์ผู้ใช้ที่ราบรื่นและมีส่วนร่วม ผู้รับเหมาที่มีประสบการณ์ด้านการแสดงเสียงได้รับการสนับสนุนให้เข้าร่วมเป็นพิเศษ ซึ่งสะท้อนให้เห็นถึงความสำคัญของการแสดงเสียงในการบรรลุระดับความสมจริงที่ต้องการ
Project Xylophone มีโครงสร้างรอบองค์ประกอบหลักสองส่วน: "Conversations" และ "Grasslands" องค์ประกอบ "Conversations" เกี่ยวข้องกับทีมผู้รับเหมาสามคนที่เข้าร่วมในการสนทนาที่สมจริงผ่าน Zoom บทสนทนาเหล่านี้ได้รับคำแนะนำจากสเปรดชีตที่มีข้อความแจ้งหลายร้อยรายการ ครอบคลุมหัวข้อต่างๆ มากมาย ตั้งแต่กลยุทธ์การเอาชีวิตรอดในโลกหลังหายนะไปจนถึงการจัดการความวิตกกังวลและการวางแผนการเดินทางระหว่างประเทศ
ดำดิ่งสู่ข้อความแจ้งบทสนทนา: ภาพรวมของจินตนาการของ AI
ข้อความแจ้งบทสนทนาที่ใช้ใน Project Xylophone นำเสนอภาพรวมที่น่าสนใจเกี่ยวกับสถานการณ์และหัวข้อที่โมเดล AI กำลังได้รับการฝึกฝนให้จัดการ ข้อความแจ้งมีตั้งแต่ในทางปฏิบัติไปจนถึงเชิงปรัชญา และแม้กระทั่งเจาะลึกเข้าไปในขอบเขตของนิยายวิทยาศาสตร์
นี่คือตัวอย่างบางส่วนของตัวเริ่มต้นการสนทนาที่ใช้ในเอกสาร Scale AI:
- หากคุณกำลังออกแบบ ‘วัฒนธรรม’ สำหรับการตั้งถิ่นฐานบนดาวอังคารครั้งแรก ประเพณีบนโลกแบบใดที่คุณต้องการสร้างใหม่ และอะไรที่คุณตื่นเต้นที่จะทิ้งไว้เบื้องหลังตลอดไป?
- ‘คนร้าย’ ในชีวิตประจำวันของคุณคืออะไร ที่คุณอยากให้ทีมซูเปอร์ฮีโร่โฉบเข้ามาแก้ไขให้ทุกคน?
- หากซอมบี้บุกในวันพรุ่งนี้ สิ่งแรกที่คุณจะคว้าจากบ้านคืออะไรก่อนที่จะวิ่งหนีไป?
- ลองนึกภาพว่าคุณเป็นนักจิตวิทยาภารกิจสำหรับโคโลนีบนดาวอังคาร คุณอยากแอบหวังว่าจะพบลักษณะบุคลิกภาพหรือลักษณะเฉพาะแบบใดในเพื่อนร่วมงานของคุณ?
- ภัยพิบัติจากการประปาที่น่าจดจำที่สุดที่คุณเคยประสบในฐานะเจ้าของบ้านคืออะไร และคุณพยายามแก้ไขด้วยตัวเองหรือโทรหาความช่วยเหลือทันที?
- คุณจำได้ไหมว่าครั้งแรกที่คุณต้องขอเงินเพิ่มหรือสวัสดิการที่ดีขึ้นคือเมื่อไหร่? อะไรอยู่ในหัวของคุณ?
ข้อความแจ้งเหล่านี้ออกแบบมาเพื่อกระตุ้นการตอบสนองที่เป็นธรรมชาติและไม่ได้เขียนสคริปต์จากผู้รับเหมา ซึ่งสามารถใช้เพื่อฝึกฝนโมเดล AI เพื่อจัดการสถานการณ์การสนทนาที่หลากหลาย
คำแนะนำสำหรับการสนทนาที่ “ดี” เน้นถึงความสำคัญของการฟังดูเป็นธรรมชาติและมีอารมณ์ โดยมีการออกเสียงและการหยุดชะงักที่หลากหลาย เป้าหมายคือการเลียนแบบความฉับพลันและความไม่แน่นอนของการสนทนาของมนุษย์ในโลกแห่งความเป็นจริง
แนวทางทุ่งหญ้า: ไม่ได้เขียนสคริปต์และเป็นของแท้
ตรงกันข้ามกับองค์ประกอบ "Conversations" ที่มีโครงสร้าง องค์ประกอบ "Grasslands" มุ่งเน้นที่คนงานเดี่ยวที่สร้างการบันทึกเสียงที่เป็นธรรมชาติและไม่ได้เขียนสคริปต์ในภาษาแม่ของพวกเขา คนงานเหล่านี้จะได้รับประเภทบทสนทนาและหมวดหมู่ย่อย และได้รับการสนับสนุนให้ปล่อยให้บทสนทนาไหลไปอย่างอิสระ โดยมีเสียงรบกวนรอบข้างได้รับการสนับสนุน
องค์ประกอบ "Grasslands" ประกอบด้วยหมวดหมู่ย่อยหลายสิบหมวดหมู่ รวมถึง "การตั้งคำถามแบบโสกราตีส" "การเล่าเรื่องเชิงไตร่ตรอง" "สถานการณ์ความรักในราชสำนัก" "การเผชิญหน้าของวีรบุรุษ-ผู้ร้าย" และ "การแก้ปริศนาร่วมกัน" หมวดหมู่ย่อยเหล่านี้มักจะมีข้อกำหนดเฉพาะ เช่น สำเนียงที่แตกต่างกัน เอฟเฟกต์เสียง หรือรูปแบบภาษาที่ประดิษฐ์ขึ้น
แนวทาง "Grasslands" สะท้อนถึงความปรารถนาที่จะจับภาพความแตกต่างและความซับซ้อนของการสนทนาของมนุษย์ในลักษณะที่เป็นของแท้และไม่ถูกจำกัดมากขึ้น
เศรษฐศาสตร์ของการฝึกอบรม AI: ภาพรวมของการชดเชย
ผู้รับเหมา Scale AI ที่เกี่ยวข้องกับ Project Xylophone ได้รับค่าตอบแทนสำหรับการมีส่วนร่วม ซึ่งเน้นถึงด้านเศรษฐกิจของการฝึกอบรม AI จากรายงาน ผู้รับเหมาจะได้รับเงินไม่กี่ดอลลาร์ต่องานสำหรับการทำงานของพวกเขา
โครงสร้างการชำระเงินสำหรับโครงการ "Grasslands" มีรายงานว่าเริ่มต้นที่ 3 ดอลลาร์ต่องาน แต่ต่อมาลดลงเหลือ 1 ดอลลาร์ต่องาน งานแต่ละงานเกี่ยวข้องกับการบันทึกไฟล์เสียง ซึ่งผู้รับเหมาจะอัปโหลดไปยังแพลตฟอร์ม Scale AI และถอดเสียงด้วยตนเอง
อัตราการจ่ายเงินที่ต่ำเน้นถึงแรงงานที่มองไม่เห็นซึ่งเกี่ยวข้องกับการสร้างและฝึกอบรมโมเดล AI
ความสำคัญของคุณภาพข้อมูล: จับภาพความแตกต่างของคำพูดของมนุษย์
ความสำเร็จของโมเดลเสียง AI ขึ้นอยู่กับความพร้อมใช้งานของข้อมูลคุณภาพสูงจำนวนมหาศาล Project Xylophone สะท้อนถึงความพยายามในการสร้างข้อมูลที่เหมาะสมโดยการสร้างสถานการณ์ในโลกแห่งความเป็นจริงขึ้นใหม่ เช่น การสนทนาที่ฟังดูเป็นธรรมชาติระหว่างผู้คน
เอกสาร "Grasslands" สั่งให้ผู้รับเหมาใส่คำเติมเต็ม เช่น "เอ่อ" ในการถอดเสียงของพวกเขาโดยชัดแจ้ง การใส่ใจในรายละเอียดนี้เน้นถึงความสำคัญของการจับภาพความแตกต่างที่ละเอียดอ่อนของคำพูดของมนุษย์ รวมถึงการหยุดชั่วคราว การลังเล และสัญญาณที่ไม่ใช่คำพูดอื่นๆ
ด้วยการรวมองค์ประกอบเหล่านี้เข้ากับข้อมูลการฝึกอบรม โมเดล AI สามารถเรียนรู้ที่จะสร้างบทสนทนาที่เป็นธรรมชาติและมีส่วนร่วมมากขึ้น
การใส่บุคลิกภาพลงใน AI: ความได้เปรียบในการแข่งขัน
Project Xylophone เป็นส่วนหนึ่งของแนวโน้มที่กว้างขึ้นในหมู่บริษัท AI ในการใส่บุคลิกภาพลงในโมเดล AI ของพวกเขา โดยพยายามสร้างความแตกต่างให้กับตนเองในตลาดที่มีการแข่งขันสูงขึ้นเรื่อยๆ
Meta ตัวอย่างเช่น มีรายงานว่าได้ดำเนินโครงการผ่าน Scale AI โดยขอให้คนงาน Gig ฝึกฝน AI ของตนเพื่อปรับใช้บุคลิกที่แตกต่างกัน เช่น "นักมายากลที่ฉลาดและลึกลับ" หรือ "นักเรียนทฤษฎีดนตรีที่ตื่นเต้นมากเกินไป"
Sam Altman ของ OpenAI ยอมรับว่า GPT-4o ล่าสุดนั้น "ประจบประแจงและน่ารำคาญเกินไป" ทำให้ต้องรีเซ็ตเพื่อให้คำตอบเป็นธรรมชาติมากขึ้น
ความพยายามเหล่านี้สะท้อนให้เห็นถึงการตระหนักว่าโมเดล AI จำเป็นต้องเป็นมากกว่าแค่ฉลาด พวกเขายังต้องเป็นที่ชื่นชอบและเข้าถึงได้ง่ายอีกด้วย
มิติทางจริยธรรมของการฝึกอบรม AI: การสร้างสมดุลระหว่างความถูกต้องกับอคติ
เมื่อโมเดล AI มีความซับซ้อนมากขึ้น ข้อกังวลเกี่ยวกับอคติและข้อควรพิจารณาด้านจริยธรรมได้เพิ่มขึ้น ทำให้เกิดการถกเถียงเกี่ยวกับการพัฒนา AI ที่มีความรับผิดชอบ
xAI ได้ทำการตลาด Grok ในฐานะแชทบอทที่มีความโดดเด่นทางการเมืองมากกว่าเมื่อเทียบกับคู่แข่งที่ Musk เรียกว่า "ตื่นตัว" โดยมีวิธีการฝึกอบรมที่บางครั้งพึ่งพามุมมองฝ่ายขวาหรือมุมมองที่ขัดแย้งกันอย่างมาก
xAI ยังได้เพิ่มความพยายามในการควบคุมด้านที่คาดเดาไม่ได้ของ Grok ผู้ที่ได้รับการว่าจ้างใหม่กำลัง "red teaming" Grok โดยทำการทดสอบความเครียดสำหรับคำตอบที่ไม่ปลอดภัยหรือละเมิดนโยบาย โดยเฉพาะอย่างยิ่งในหัวข้อที่เป็นข้อถกเถียงและในโหมด "NSFW" หรือ "unhinged"
ความพยายามเหล่านี้เน้นถึงความท้าทายในการสร้างโมเดล AI ที่ให้ข้อมูลและมีจริยธรรม และความจำเป็นในการตรวจสอบและประเมินอย่างต่อเนื่อง
วิวัฒนาการอย่างต่อเนื่องของโมเดลเสียง AI: อนาคตของการโต้ตอบที่ราบรื่น
Project Xylophone และโครงการริเริ่มที่คล้ายกันแสดงถึงก้าวสำคัญไปข้างหน้าในการแสวงหาการสร้างโมเดลเสียง AI ที่สามารถโต้ตอบกับมนุษย์ได้อย่างราบรื่น ในขณะที่เทคโนโลยี AI ยังคงพัฒนาต่อไป เราคาดว่าจะได้เห็นผู้ช่วย AI ที่ซับซ้อนและฟังดูเป็นธรรมชาติมากยิ่งขึ้นในอนาคต
การแสวงหาโมเดลเสียง AI ที่เหมือนมนุษย์นั้นไม่ใช่เรื่องท้าทาย ข้อกังวลเกี่ยวกับอคติ ข้อควรพิจารณาด้านจริยธรรม และศักยภาพในการใช้งานในทางที่ผิดยังคงอยู่ อย่างไรก็ตาม ศักยภาพของเทคโนโลยีเหล่านี้มีมากมาย ตั้งแต่การปรับปรุงการเข้าถึงไปจนถึงการปรับปรุงการสื่อสารและการทำงานร่วมกัน
เมื่อโมเดลเสียง AI แพร่หลายมากขึ้น สิ่งสำคัญคือต้องจัดการกับความท้าทายเหล่านี้อย่างแข็งขัน และตรวจสอบให้แน่ใจว่าเทคโนโลยีเหล่านี้ถูกนำไปใช้อย่างมีความรับผิดชอบและมีจริยธรรม อนาคตของโมเดลเสียง AI มีแนวโน้มที่ดี แต่ขึ้นอยู่กับเราที่จะกำหนดอนาคตนั้นในลักษณะที่เป็นประโยชน์ต่อมนุษยชาติทั้งหมด
ความพยายามในการสร้าง AI ที่ฟังดูเป็นมนุษย์มากขึ้นเป็นเรื่องยาก ดังที่เห็นได้จากเอกสารที่รั่วไหล ไม่เพียงแต่ AI จะต้องพูดอย่างคล่องแคล่วด้วยไวยากรณ์ที่ถูกต้องเท่านั้น แต่ยังต้องมีบุคลิกที่ดูเหมือนจริงสำหรับคนที่กำลังพูดคุยด้วย งานที่ยิ่งใหญ่นี้คือสิ่งที่บริษัทเหล่านี้พบว่าตัวเองกำลังทำอยู่ในขณะนี้