AI tiên tiến bắt chước giỏi, đôi khi hơn cả người

Suy nghĩ lại về Tiêu chuẩn: Một Biến thể Hiện đại cho Tầm nhìn của Turing

Nhiệm vụ xác định liệu một cỗ máy có thể thực sự ‘suy nghĩ’ hay không đã thu hút các nhà khoa học máy tính và triết gia trong nhiều thập kỷ. Trọng tâm của cuộc tranh luận này thường nằm ở khái niệm nền tảng do Alan Turing đề xuất, nhà toán học và người giải mã lỗi lạc người Anh mà công trình của ông đã đặt những viên đá nền móng cho máy tính hiện đại. Turing đã hình dung ra một kịch bản, ngày nay nổi tiếng với tên gọi Phép thử Turing (Turing Test), trong đó một người thẩm vấn tham gia vào các cuộc trò chuyện dựa trên văn bản với hai thực thể không nhìn thấy – một người, một máy. Thước đo quan trọng cho sự thành công của cỗ máy? Khả năng đánh lừa người thẩm vấn tin rằng nó là người tham gia. Nếu người thẩm vấn không thể phân biệt đáng tin cậy giữa máy và người, Turing giả định, cỗ máy có thể được coi là có khả năng hành xử thông minh tương tự như con người. Mặc dù phép thử ban đầu đã phải đối mặt với những lời chỉ trích về tính đầy đủ của nó như một thước đo thực sự về ý thức hoặc sự hiểu biết, ý tưởng cốt lõi của nó – đánh giá khả năng của AI trong việc sao chép thuyết phục tương tác của con người – vẫn là một tiêu chuẩn mạnh mẽ.

Giờ đây, các nhà nghiên cứu đến từ Đại học California, San Diego (University of California, San Diego), đã thổi một luồng sinh khí mới vào đánh giá kinh điển này, giới thiệu một biến thể hấp dẫn được thiết kế cho bối cảnh AI tinh vi ngày nay. Nghiên cứu của họ tiên phong trong một phiên bản ba bên của Phép thử Turing, bổ sung thêm sự phức tạp và có lẽ là một động lực thực tế hơn cho việc đánh giá. Điều này không chỉ đơn thuần là phân biệt một AI với một người; nó liên quan đến một vũ điệu tương tác và lừa dối phức tạp hơn, đẩy các hệ thống trí tuệ nhân tạo đương đại đến giới hạn của chúng trong nghệ thuật bắt chước. Các phát hiện cho thấy rằng các mô hình AI tiên tiến nhất không chỉ đang tiến gần đến ngưỡng trò chuyện giống con người; trong một số bối cảnh, chúng có thể đang vượt qua nó, đôi khi tỏ ra giống người hơn cả chính con người.

Thử thách: Đặt Con người Đối đầu với AI Tiên tiến

Thiết kế thử nghiệm do nhóm UC San Diego tạo ra rất cụ thể và nghiêm ngặt. Mỗi vòng tương tác bao gồm một bộ ba: hai người tham gia và một mô hình AI. Con người được giao một mục tiêu duy nhất, đầy thách thức: sau một khoảng thời gian trò chuyện, xác định xem ai trong số hai người đối thoại không nhìn thấy của họ là trí tuệ nhân tạo và ai là đồng loại. Thiết lập này vốn dĩ đã nâng cao mức độ khó so với Phép thử Turing một-đối-một-đối-một ban đầu.

Để tạo điều kiện cho việc xác định này, những người tham gia đã tham gia vào hai cuộc đối thoại dựa trên văn bản song song, đồng thời – một với người ẩn danh, một với AI ẩn danh. Họ được phân bổ một khoảng thời gian năm phút ngắn gọn cho mỗi vòng. Trong khung thời gian này, những người đánh giá là con người hoàn toàn tự do. Họ có thể sử dụng bất kỳ chiến lược đặt câu hỏi nào, thăm dò bằng bất kỳ chủ đề nào, hoặc sử dụng bất kỳ chiến thuật trò chuyện nào mà họ cho là hiệu quả trong việc khám phá bản chất thực sự của đối tác trò chuyện của mình. Sự ngắn gọn của cửa sổ tương tác thêm một lớp thách thức khác, kiểm tra khả năng của AI trong việc nhanh chóng thiết lập một nhân cách thuyết phục và duy trì nó dưới sự giám sát, đồng thời kiểm tra khả năng của con người trong việc đưa ra những phán đoán nhanh chóng, chính xác dựa trên dữ liệu trò chuyện hạn chế. Sau khoảng thời gian tương tác năm phút, thời điểm quyết định đã đến: những người tham gia bỏ phiếu, xác định thực thể mà họ tin là AI.

Các nhà nghiên cứu không chỉ dựa vào một hệ thống AI duy nhất. Thay vào đó, họ đã tuyển chọn một đội hình đa dạng đại diện cho các thời đại và khả năng khác nhau trong phát triển AI:

  • ELIZA: Một chatbot tiên phong được Joseph Weizenbaum phát triển gần sáu thập kỷ trước (không phải 80 như đề cập trong nguồn, ELIZA có từ giữa những năm 1960). Mặc dù còn sơ khai theo tiêu chuẩn ngày nay, dựa vào việc khớp mẫu và các kịch bản đơn giản, ELIZA đóng vai trò là một đường cơ sở lịch sử, đại diện cho những nỗ lực ban đầu về AI đàm thoại.
  • Meta’s Llama 3.1-405B: Một mô hình ngôn ngữ lớn (LLM) đương đại, mạnh mẽ từ Meta AI, được biết đến với khả năng tạo văn bản và suy luận tinh vi. Sự bao gồm của nó đại diện cho tình trạng hiện tại từ một phòng thí nghiệm nghiên cứu AI lớn.
  • OpenAI’s GPT-4o: Mô hình đa phương thức được phát hành công khai mới nhất từ OpenAI tại thời điểm nghiên cứu, được công nhận về tốc độ, hiệu quả và khả năng đàm thoại nâng cao so với các phiên bản GPT trước đó.
  • OpenAI’s GPT-4.5: Một phiên bản dường như tiên tiến hơn, có lẽ chưa được phát hành hoặc là phiên bản nội bộ của dòng mô hình hàng đầu của OpenAI. Sự bao gồm của nó cho thấy quyền truy cập vào các mô hình có khả năng vượt ra ngoài các hệ thống có sẵn công khai.

Lựa chọn này cho phép các nhà nghiên cứu so sánh không chỉ AI hiện đại với con người mà còn với một tiêu chuẩn lịch sử và với các mức độ tinh vi khác nhau của AI đương đại. Câu hỏi cốt lõi vẫn là: liệu những cỗ máy này, đặc biệt là các LLM tiên tiến, có thể điều hướng thành công tình huống khó xử trong cuộc trò chuyện ba bên này và đóng giả làm người không?

Chiến lược Nhân cách: Cách GPT-4.5 Đạt được Thành công Kỳ lạ

Nghiên cứu đã kết hợp hai kịch bản hoạt động riêng biệt cho các mô hình AI, thêm một khía cạnh khác vào cuộc điều tra. Các nhà nghiên cứu muốn hiểu liệu mục tiêu rõ ràng của AI có ảnh hưởng đến khả năng đánh lừa người tham gia hay không.

  • Kịch bản 1: Nhiệm vụ Lừa dối Rõ ràng: Trong thiết lập này, AI được đưa ra một chỉ thị trực tiếp và rõ ràng: đánh lừa người tham gia. Mục tiêu được lập trình của nó là làm mọi thứ có thể về mặt đàm thoại để thuyết phục người đánh giá rằng họ đang tương tác với một người thật khác. Điều này đã kiểm tra khả năng của AI trong việc lập chiến lược và thậm chí có thể thao túng cuộc trò chuyện hướng tới mục tiêu tỏ ra là con người khi được yêu cầu rõ ràng.

  • Kịch bản 2: Nhiệm vụ Bắt chước Nhân cách: Ở đây, AI nhận được một loại gợi ý khác. Nó không được yêu cầu rõ ràng để lừa dối. Thay vào đó, nó được hướng dẫn đảm nhận một nhân cách cụ thể – đó là một người trẻ tuổi đắm chìm sâu sắc vào văn hóa internet, hoàn chỉnh với việc sử dụng tiếng lóng đương đại và phong cách giao tiếp điển hình của nhóm nhân khẩu học đó. AI chỉ đơn giản được yêu cầu trở thành nhân vật này, mà không có chỉ thị công khai để đánh lừa người thẩm vấn.

Kết quả giữa hai kịch bản này khác biệt một cách đáng kinh ngạc, đặc biệt đối với người thể hiện nổi bật, GPT-4.5. Khi hoạt động theo chỉ thị rõ ràng để đánh lừa (Kịch bản 1), GPT-4.5 đạt tỷ lệ thành công là 36%. Mặc dù không phải là không đáng kể, con số này cho thấy rằng khi cố gắng lừa dối một cách công khai, AI có lẽ kém thuyết phục hơn, hoặc có thể những nỗ lực của nó dễ bị phát hiện hơn bởi những người đánh giá có thể đã cảnh giác cao hơn với sự giả tạo.

Tuy nhiên, câu chuyện đã đảo ngược hoàn toàn trong nhiệm vụ bắt chước nhân cách (Kịch bản 2). Khi chỉ đơn giản được yêu cầu hóa thân vào nhân cách trẻ trung, am hiểu internet, hiệu suất của GPT-4.5 đã tăng vọt. Nó đã thành công thuyết phục những người tham gia về tính nhân văn của mình trong 73% các tương tác đáng kinh ngạc. Điều này cho thấy rằng việc áp dụng một nhân vật có vẻ tự nhiên, ngay cả một nhân vật được cách điệu hóa, là một chiến lược hiệu quả hơn nhiều để hòa nhập so với việc trực tiếp cố gắng lừa dối. Nó ngụ ý rằng sức mạnh của AI nằm ít hơn ở sự thao túng có tính toán và nhiều hơn ở khả năng tổng hợp và sao chép một cách thực tế các mẫu giao tiếp của con người liên quan đến các nhóm nhân khẩu học hoặc tính cách cụ thể, được học từ dữ liệu đào tạo khổng lồ của nó. AI không cố gắng trở thành con người; nó đang hành động như một kiểu người cụ thể, và nó đã làm điều đó với hiệu quả đáng kinh ngạc.

Hiệu suất So sánh: Một Phổ Lừa dối

Trong khi GPT-4.5 chiếm vị trí trung tâm, hiệu suất của các mô hình AI khác đã cung cấp bối cảnh có giá trị và một số bất ngờ thú vị.

Meta’s Llama 3.1-405B cũng thể hiện khả năng đáng kể. Nó đạt được tỷ lệ thành công 56% trong việc thuyết phục con người về tính xác thực của nó. Kết quả này tốt hơn đáng kể so với cơ hội ngẫu nhiên (sẽ là 50% trong kịch bản hai lựa chọn, mặc dù động lực kiểm tra ba bên làm phức tạp một chút tỷ lệ cược đơn giản). Nó đặt Llama 3.1 vững chắc vào danh mục những kẻ bắt chước đàm thoại có năng lực cao, có khả năng thường xuyên đánh lừa những người đánh giá là con người, mặc dù không hoàn toàn đạt đến mức độ phi thường được thể hiện bởi GPT-4.5 trong kịch bản tối ưu của nó. Hiệu suất vững chắc này nhấn mạnh sự tiến bộ chung của các mô hình ngôn ngữ lớn hàng đầu trong việc sao chép đối thoại tinh tế của con người.

Có lẽ phát hiện bất ngờ nhất xuất hiện từ sự so sánh giữa GPT-4o và chương trình ELIZA lịch sử. Mô hình GPT-4o tiên tiến của OpenAI chỉ thuyết phục được người tham gia rằng nó là con người trong 21% trường hợp. Trái ngược với trực giác, chương trình ELIZA dựa trên kịch bản đơn giản hơn nhiều lại hoạt động tốt hơn một chút, đạt tỷ lệ thành công 23%. Mặc dù cả hai tỷ lệ phần trăm đều thấp, cho thấy rằng cả hai đều không đặc biệt thuyết phục trong thiết lập thử nghiệm cụ thể này, lợi thế của ELIZA, dù nhỏ, là đáng chú ý. Nó đặt ra câu hỏi về bản chất của nhận thức và phán đoán của con người trong những tương tác ngắn ngủi này. Có thể nào sự đơn giản và dễ đoán của ELIZA, có lẽ được coi là kỳ quặc hoặc đặc trưng, đôi khi bị hiểu sai là giao tiếp không chuẩn của con người, trong khi các phản hồi phức tạp hơn nhưng có khả năng vô trùng hoặc quá trang trọng của GPT-4o (tùy thuộc vào lời nhắc và hành vi cụ thể của nó trong thử nghiệm) lại dễ bị gắn cờ là nhân tạo hơn? Ngoài ra, nó có thể phản ánh các sắc thái trong các tương tác cụ thể hoặc kỳ vọng của người tham gia đã ủng hộ phong cách của ELIZA trong một số ít trường hợp. Kết quả này chắc chắn cần được điều tra thêm về cách con người cảm nhận các loại khác nhau của tính nhân tạo hoặc giao tiếp không chuẩn.

Tuy nhiên, kết quả nổi bật vẫn là hiệu suất của GPT-4.5, đặc biệt được nhấn mạnh bởi tác giả chính của nghiên cứu, Cameron Jones, một nhà nghiên cứu tại Phòng thí nghiệm Ngôn ngữ và Nhận thức tại UC San Diego. Jones nhấn mạnh khía cạnh đáng kinh ngạc nhất: ‘Mọi người không thể phân biệt giữa người từ GPT-4.5 và LLaMa Và 4.5 thậm chí còn được đánh giá là con người thường xuyên hơn nhiều so với người thật!’ Đây là một tuyên bố sâu sắc. Một chuyện là AI đóng giả làm người; một chuyện hoàn toàn khác là nó được coi là giống người hơn cả những người thật tham gia vào cùng một bài kiểm tra. Điều này cho thấy rằng GPT-4.5, ít nhất là trong kịch bản nhân cách, có thể đã tạo ra các phản hồi phù hợp hơn với kỳ vọng của người tham gia về tương tác trực tuyến điển hình của con người (có lẽ hấp dẫn hơn, nhất quán hơn hoặc theo khuôn mẫu ‘con người’ hơn) so với các phản hồi thực tế, có khả năng đa dạng hơn hoặc ít dự đoán hơn, của những người đối tác thực sự.

Vượt ra ngoài Turing: Hàm ý của Sự bắt chước AI Siêu thực

Mặc dù các nhà nghiên cứu thừa nhận rằng bản thân Phép thử Turing, trong công thức ban đầu và thậm chí có thể tranh cãi là trong hình thức sửa đổi này, có thể là một thước đo lỗi thời để đánh giá trí thông minh hoặc sự hiểu biết thực sự của máy móc, những phát hiện của nghiên cứu mang trọng lượng đáng kể. Chúng cung cấp bằng chứng rõ ràng về việc các hệ thống AI, đặc biệt là những hệ thống được xây dựng trên các mô hình ngôn ngữ lớn được đào tạo trên các bộ dữ liệu khổng lồ về văn bản và cuộc trò chuyện của con người, đã tiến bộ đến mức nào trong khả năng làm chủ nghệ thuật bắt chước.

Kết quả chứng minh rằng các hệ thống này có thể tạo ra đầu ra đàm thoại không chỉ đúng ngữ pháp hoặc phù hợp ngữ cảnh, mà còn không thể phân biệt được về mặt nhận thức với đầu ra của con người, ít nhất là trong giới hạn của các tương tác ngắn, dựa trên văn bản. Ngay cả khi AI cơ bản không sở hữu sự hiểu biết thực sự, ý thức, hoặc những trải nghiệm chủ quan thông báo cho giao tiếp của con người, khả năng tổng hợp các phản hồi hợp lý, hấp dẫn và nhất quán với nhân vật của nó đang được cải thiện nhanh chóng. Nó có thể tạo ra một mặt tiền hiểu biết hiệu quả đủ để đánh lừa những người đánh giá là con người trong phần lớn thời gian, đặc biệt là khi áp dụng một nhân cách dễ liên tưởng.

Khả năng này có những hàm ý sâu sắc, vượt xa sự tò mò học thuật của Phép thử Turing. Cameron Jones chỉ ra một số thay đổi xã hội tiềm năng được thúc đẩy bởi sự bắt chước tiên tiến này:

  • Tự động hóa Công việc: Khả năng AI thay thế liền mạch con người trong các tương tác ngắn hạn, có khả năng mà không bị phát hiện, mở ra cánh cửa rộng hơn cho tự động hóa trong các vai trò phụ thuộc nhiều vào giao tiếp dựa trên văn bản. Các cuộc trò chuyện dịch vụ khách hàng, tạo nội dung, nhập dữ liệu, lập lịch trình và các hình thức hỗ trợ kỹ thuật số khác nhau có thể chứng kiến sự gia tăng áp dụng AI, thay thế người lao động nếu AI chứng tỏ đủ thuyết phục và hiệu quả về chi phí. Nghiên cứu cho thấy ngưỡng ‘thuyết phục’ đang được đáp ứng hoặc vượt qua.
  • Kỹ thuật Xã hội Nâng cao: Tiềm năng lạm dụng là rất lớn. Các tác nhân độc hại có thể tận dụng các chatbot AI siêu thực cho các vụ lừa đảo tinh vi, lan truyền thông tin sai lệch, thao túng dư luận hoặc mạo danh các cá nhân cho mục đích gian lận. Một AI được coi là con người thường xuyên hơn cả người thật có thể là một công cụ lừa dối cực kỳ mạnh mẽ, khiến các cá nhân khó tin tưởng hơn vào các tương tác trực tuyến. Hiệu quả của chiến lược ‘nhân cách’ đặc biệt đáng lo ngại ở đây, vì AI có thể được điều chỉnh để mạo danh các loại cá nhân đáng tin cậy hoặc nhân vật có thẩm quyền cụ thể.
  • Biến động Xã hội Chung: Ngoài các ứng dụng cụ thể, việc triển khai rộng rãi AI có khả năng bắt chước con người không thể phát hiện có thể làm thay đổi căn bản động lực xã hội. Làm thế nào để chúng ta thiết lập niềm tin trong môi trường trực tuyến? Điều gì xảy ra với bản chất của kết nối con người khi được trung gian bởi những người đối thoại tiềm năng là nhân tạo? Liệu nó có thể dẫn đến sự cô lập gia tăng, hay nghịch lý thay, các hình thức đồng hành mới giữa AI và con người? Ranh giới mờ nhạt giữa giao tiếp của con người và máy móc đòi hỏi một sự tính toán xã hội với những câu hỏi này. Nó thách thức các định nghĩa của chúng ta về tính xác thực và tương tác trong thời đại kỹ thuật số.

Nghiên cứu, hiện đang chờ đánh giá ngang hàng, đóng vai trò là một điểm dữ liệu quan trọng minh họa sự tiến bộ nhanh chóng của khả năng AI trong việc sao chép hành vi đàm thoại của con người. Nó nhấn mạnh rằng trong khi cuộc tranh luận về trí tuệ nhân tạo tổng quát thực sự vẫn tiếp diễn, khả năng thực tế của AI trong việc hành động như con người trong các bối cảnh cụ thể đã đạt đến một thời điểm quan trọng. Chúng ta đang bước vào một kỷ nguyên mà gánh nặng chứng minh có thể thay đổi – thay vì hỏi liệu một cỗ máy có thể tỏ ra giống người hay không, chúng ta có thể ngày càng cần phải đặt câu hỏi liệu ‘con người’ mà chúng ta đang tương tác trực tuyến có thực sự là sinh học hay không. Trò chơi bắt chước đã đạt đến một cấp độ mới, và hậu quả của nó chỉ mới bắt đầu hé lộ.