AI Tìm Kiếm Giọng Nói Giống Người: Hé Lộ Bí Mật xAI

Sự theo đuổi trí tuệ nhân tạo có thể bắt chước tương tác của con người đã dẫn đến một số phát triển hấp dẫn, và đôi khi gây khó chịu. Trong nhiệm vụ tạo ra các trợ lý AI không chỉ thông minh mà còn dễ gần, các công ty đang sử dụng nhiều kỹ thuật khác nhau để đào tạo các mô hình giọng nói của họ. Những tiết lộ gần đây làm sáng tỏ một nỗ lực như vậy: “Dự án Xylophone” của xAI.

Bên trong Dự án Xylophone: Tạo AI Đàm Thoại

Các tài liệu bị rò rỉ đã phơi bày các hoạt động bên trong của Dự án Xylophone, một sáng kiến của Scale AI được thiết kế để tinh chỉnh các mô hình giọng nói của xAI. Dự án xoay quanh việc thu hút các nhà thầu ghi lại những cuộc trò chuyện ngẫu hứng của họ về nhiều chủ đề đa dạng. Mục tiêu bao trùm là thấm nhuần các mô hình của xAI với chất lượng giống con người, tự nhiên hơn, tránh xa giọng điệu robot thường đặc trưng cho các tương tác AI.

Những nhà thầu này, được cung cấp bởi công ty dán nhãn dữ liệu Scale AI, được trả tiền để ghi lại các cuộc trò chuyện với đồng nghiệp của họ về các chủ đề từ trần tục đến giàu trí tưởng tượng, tất cả đều phục vụ cho việc làm cho các mô hình giọng nói của xAI nghe có vẻ chân thực hơn. Tính đến tháng 4, Scale AI đang quản lý ít nhất 10 dự án AI tạo sinh cho xAI, phản ánh nỗ lực mạnh mẽ đang được đổ vào lĩnh vực này.

Sự thúc đẩy trên toàn ngành để có nhiều AI đàm thoại hơn bắt nguồn từ mong muốn thu hút người dùng đến các phiên bản trả phí, cao cấp của các dịch vụ này. Bằng cách làm cho các tương tác AI trở nên thú vị và tự nhiên hơn, các công ty hy vọng sẽ lôi kéo người dùng đầu tư vào các công nghệ tiên tiến này.

Bản Thiết Kế Cho Đào Tạo Đàm Thoại

Business Insider đã có được một loạt các tài liệu Scale AI cung cấp cái nhìn chi tiết về cách thức hoạt động của Dự án Xylophone. Các tài liệu này, bao gồm hướng dẫn dự án, hướng dẫn dành cho người đánh giá và hướng dẫn chủ đề trò chuyện, cung cấp một cái nhìn tổng quan toàn diện về phương pháp luận của dự án.

Mặc dù mô hình xAI cụ thể đang được đào tạo vẫn chưa được tiết lộ trong các tài liệu, nhưng trọng tâm của dự án về “chất lượng âm thanh và sự trôi chảy tự nhiên” cho thấy sự nhấn mạnh mạnh mẽ vào việc tạo ra trải nghiệm người dùng liền mạch và hấp dẫn. Các nhà thầu có kinh nghiệm diễn xuất giọng nói đặc biệt được khuyến khích tham gia, phản ánh tầm quan trọng của hiệu suất giọng nói trong việc đạt được mức độ chân thực mong muốn.

Dự án Xylophone được cấu trúc xung quanh hai thành phần chính: “Cuộc trò chuyện” và “Đồng cỏ”. Thành phần “Cuộc trò chuyện” liên quan đến các nhóm ba nhà thầu tham gia vào các cuộc trò chuyện thực tế qua Zoom. Những cuộc trò chuyện này được hướng dẫn bởi một bảng tính chứa hàng trăm lời nhắc, bao gồm nhiều chủ đề, từ chiến thuật sinh tồn trong một thế giới hậu tận thế đến quản lý sự lo lắng và lập kế hoạch cho các chuyến đi quốc tế.

Đi Sâu Vào Lời Nhắc Hội Thoại: Cái Nhìn Sâu Sắc Về Trí Tưởng Tượng Của AI

Các lời nhắc hội thoại được sử dụng trong Dự án Xylophone mang đến một cái nhìn sâu sắc hấp dẫn về loại kịch bản và chủ đề mà các mô hình AI đang được đào tạo để xử lý. Các lời nhắc trải dài từ thực tế đến triết học, và thậm chí đi sâu vào lĩnh vực khoa học viễn tưởng.

Dưới đây là một vài ví dụ về các lời nhắc bắt đầu cuộc trò chuyện được sử dụng trong các tài liệu Scale AI:

  • Nếu bạn đang thiết kế ‘văn hóa’ cho khu định cư Sao Hỏa đầu tiên, truyền thống Trái đất nào bạn chắc chắn muốn tái tạo và bạn sẽ vui mừng bỏ lại điều gì mãi mãi?
  • ‘Nhân vật phản diện’ nào trong cuộc sống hàng ngày của bạn mà bạn ước một đội siêu anh hùng có thể xông vào và sửa chữa cho mọi người?
  • Nếu ngày mai ngày tận thế zombie ập đến, điều đầu tiên bạn sẽ lấy từ nhà trước khi bỏ chạy là gì?
  • Hãy tưởng tượng bạn là nhà tâm lý học của nhiệm vụ cho một thuộc địa Sao Hỏa—bạn sẽ bí mật hy vọng tìm thấy loại tính cách hoặc đặc điểm kỳ quặc nào ở những người thuộc địa khác của mình?
  • Thảm họa ống nước đáng nhớ nhất mà bạn đã trải qua với tư cách là chủ nhà là gì—và bạn đã cố gắng tự sửa nó hay ngay lập tức gọi trợ giúp?
  • Bạn có nhớ lần đầu tiên bạn phải yêu cầu thêm tiền hoặc lợi ích tốt hơn không? Điều gì đã diễn ra trong đầu bạn?

Những lời nhắc này được thiết kế để gợi ra những phản hồi tự nhiên, không có kịch bản từ các nhà thầu, sau đó có thể được sử dụng để đào tạo các mô hình AI để xử lý nhiều kịch bản hội thoại.

Hướng dẫn cho các cuộc trò chuyện “tốt” nhấn mạnh tầm quan trọng của việc nghe có vẻ tự nhiên và tình cảm, với nhiều ngữ điệu và ngắt lời khác nhau. Mục tiêu là bắt chước tính tự phát và khó đoán của cuộc trò chuyện giữa người với người trong thế giới thực.

Phương Pháp Đồng Cỏ: Không Theo Kịch Bản và Chân Thực

Ngược lại với thành phần “Cuộc trò chuyện” có cấu trúc, thành phần “Đồng cỏ” tập trung vào những người làm việc độc lập tạo ra các bản ghi âm có âm thanh tự nhiên, không có kịch bản bằng ngôn ngữ mẹ đẻ của họ. Những người lao động này được cung cấp một loại cuộc trò chuyện và danh mục phụ và được khuyến khích để cuộc trò chuyện diễn ra tự do, thậm chí khuyến khích tiếng ồn xung quanh.

Thành phần “Đồng cỏ” bao gồm hàng tá danh mục phụ, bao gồm “hỏi đáp kiểu Socrates”, “kể chuyện phản ánh”, “kịch bản tình yêu quý tộc”, “đối đầu giữa anh hùng và kẻ phản diện” và “giải quyết câu đố cộng tác”. Các danh mục phụ này thường liên quan đến các yêu cầu cụ thể, chẳng hạn như các giọng khác nhau, hiệu ứng âm thanh hoặc các mẫu ngôn ngữ được phát minh.

Phương pháp “Đồng cỏ” phản ánh mong muốn nắm bắt các sắc thái và sự phức tạp của cuộc trò chuyện giữa người với người một cách chân thực và không bị gò bó hơn.

Kinh tế Đào Tạo AI: Cái Nhìn Sâu Sắc Về Bồi Thường

Các nhà thầu Scale AI tham gia vào Dự án Xylophone được bồi thường cho những đóng góp của họ, làm nổi bật khía cạnh kinh tế của đào tạo AI. Theo báo cáo, các nhà thầu được trả vài đô la cho mỗi nhiệm vụ cho công việc của họ.

Cấu trúc thanh toán cho dự án “Đồng cỏ” được báo cáo là bắt đầu từ 3 đô la cho mỗi nhiệm vụ nhưng sau đó đã giảm xuống 1 đô la cho mỗi nhiệm vụ. Mỗi nhiệm vụ liên quan đến việc ghi lại một tệp âm thanh, sau đó các nhà thầu tải lên một nền tảng Scale AI và ghi lại theo cách thủ công.

Mức lương thấp nhấn mạnh lao động thường vô hình đi vào việc tạo và đào tạo các mô hình AI.

Tầm Quan Trọng Của Chất Lượng Dữ Liệu: Nắm Bắt Các Sắc Thái Của Lời Nói Của Con Người

Sự thành công của các mô hình giọng nói AI phụ thuộc vào sự sẵn có của lượng lớn dữ liệu chất lượng cao. Dự án Xylophone phản ánh nỗ lực tạo ra dữ liệu phù hợp bằng cách tái tạo các kịch bản trong thế giới thực, chẳng hạn như các cuộc trò chuyện có âm thanh tự nhiên giữa mọi người.

Tài liệu “Đồng cỏ” hướng dẫn rõ ràng các nhà thầu bao gồm các từ đệm như “ừ” trong bản ghi của họ. Sự chú ý đến chi tiết này nhấn mạnh tầm quan trọng của việc nắm bắt các sắc thái tinh tế của lời nói của con người, bao gồm cả việc tạm dừng, do dự và các tín hiệu phi ngôn ngữ khác.

Bằng cách kết hợp các yếu tố này vào dữ liệu đào tạo, các mô hình AI có thể học cách tạo ra các cuộc trò chuyện tự nhiên và hấp dẫn hơn.

Tiêm Truyền Tính Cách Vào AI: Lợi Thế Cạnh Tranh

Dự án Xylophone là một phần của xu hướng rộng lớn hơn giữa các công ty AI để tiêm truyền tính cách vào các mô hình AI của họ, tìm cách khác biệt hóa bản thân trong một thị trường ngày càng đông đúc.

Meta, ví dụ, đã báo cáo chạy một dự án thông qua Scale AI yêu cầu những người làm việc tự do đào tạo AI của mình để áp dụng các nhân vật khác nhau, chẳng hạn như “một phù thủy thông thái và huyền bí” hoặc một “sinh viên lý thuyết âm nhạc siêu phấn khích”.

Sam Altman của OpenAI thừa nhận rằng GPT-4o mới nhất đã trở nên “quá nịnh hót và gây khó chịu”, thúc đẩy việc thiết lập lại để làm cho các câu trả lời của nó tự nhiên hơn.

Những nỗ lực này phản ánh sự công nhận rằng các mô hình AI cần phải hơn cả thông minh – chúng cũng cần phải được yêu thích và dễ gần.

Các Khía Cạnh Đạo Đức Của Đào Tạo AI: Cân Bằng Độ Chính Xác Với Sự Thiên Vị

Khi các mô hình AI trở nên tinh vi hơn, những lo ngại về sự thiên vị và các cân nhắc đạo đức đã tăng lên, gây ra các cuộc tranh luận về phát triển AI có trách nhiệm.

xAI đã tiếp thị Grok như một chatbot có tính chính trị cao hơn so với những gì Musk gọi là các đối thủ “thức tỉnh”, với các phương pháp đào tạo đôi khi nghiêng mạnh về quan điểm cánh hữu hoặc trái ngược.

xAI cũng đã tăng cường nỗ lực kiểm soát mặt khó đoán của Grok. Những nhân viên mới đang “kiểm tra đỏ” Grok, kiểm tra căng thẳng nó để tìm các câu trả lời không an toàn hoặc vi phạm chính sách, đặc biệt là về các chủ đề gây tranh cãi và ở các chế độ “NSFW” hoặc “không kiềm chế”.

Những nỗ lực này làm nổi bật những thách thức của việc tạo ra các mô hình AI vừa mang tính thông tin vừa đạo đức, và sự cần thiết phải giám sát và đánh giá liên tục.

Sự Phát Triển Không Ngừng Của Các Mô Hình Giọng Nói AI: Một Tương Lai Tương Tác Liền Mạch

Dự án Xylophone và các sáng kiến tương tự đại diện cho một bước tiến quan trọng trong nhiệm vụ tạo ra các mô hình giọng nói AI có thể tương tác liền mạch với con người. Khi công nghệ AI tiếp tục phát triển, chúng ta có thể mong đợi sẽ thấy các trợ lý AI tinh vi và có âm thanh tự nhiên hơn nữa trong tương lai.

Việc theo đuổi các mô hình giọng nói AI giống người không phải là không có những thách thức của nó. Những lo ngại về sự thiên vị, các cân nhắc đạo đức và khả năng lạm dụng vẫn còn. Tuy nhiên, những lợi ích tiềm năng của các công nghệ này là rất lớn, từ cải thiện khả năng tiếp cận đến tăng cường giao tiếp và cộng tác.

Khi các mô hình giọng nói AI trở nên phổ biến hơn, điều quan trọng là phải giải quyết những thách thức này một cách chủ động và đảm bảo rằng các công nghệ này được sử dụng một cách có trách nhiệm và đạo đức. Tương lai của các mô hình giọng nói AI hứa hẹn rất nhiều, nhưng chúng ta phải định hình tương lai đó theo cách mang lại lợi ích cho toàn nhân loại.

Nỗ lực tạo ra AI có âm thanh giống người hơn là khó khăn, như được chứng minh trong các tài liệu bị rò rỉ. AI không chỉ phải nói trôi chảy với ngữ pháp chính xác, mà nó còn phải có một tính cách có vẻ thật đối với người đang nói chuyện với nó. Nhiệm vụ vĩ đại này là nơi các công ty này hiện đang thấy mình.