Khủng hoảng tuổi trung niên của Turing Test: AI đã qua mặt?

Hé lộ ảo ảnh về trí tuệ

Trong nhiều thập kỷ, Turing Test đã đứng vững như một cột mốc, mặc dù thường bị hiểu lầm, trong hành trình đo lường trí tuệ nhân tạo. Được hình thành bởi Alan Turing lỗi lạc, nó đề xuất một thách thức đơn giản nhưng sâu sắc: liệu một cỗ máy có thể thuyết phục một con người, chỉ thông qua cuộc trò chuyện bằng văn bản, rằng nó cũng là con người? Nhiều người đã diễn giải thành công trong bài kiểm tra này là bình minh của tư duy máy móc thực sự, một dấu hiệu cho thấy bộ não silicon cuối cùng đã phản chiếu khả năng nhận thức của chính chúng ta. Tuy nhiên, cách giải thích này luôn gây tranh cãi, và những phát triển gần đây liên quan đến các mô hình AI tinh vi như GPT-4.5 của OpenAI đang buộc phải đánh giá lại một cách nghiêm túc.

Nghiên cứu đột phá từ University of California at San Diego làm nổi bật cuộc tranh luận này. Các học giả ở đó đã tiến hành các thí nghiệm đối đầu giữa con người và các mô hình ngôn ngữ lớn (LLMs) tiên tiến theo định dạng Turing Test cổ điển. Kết quả thật đáng kinh ngạc: phiên bản mới nhất của OpenAI, được cho là GPT-4.5, không chỉ vượt qua; nó còn xuất sắc, chứng tỏ thuyết phục hơn trong việc đóng giả con người so với những người tham gia thực sự trong việc chứng minh tính người của chính họ. Điều này thể hiện một bước nhảy vọt đáng kể về khả năng của AI tạo sinh trong việc tạo ra các phản hồi có cảm giác chân thực như con người. Tuy nhiên, ngay cả các nhà nghiên cứu đứng sau nghiên cứu này cũng cảnh báo không nên đánh đồng khả năng trò chuyện này với thành tựu của trí tuệ nhân tạo tổng quát (AGI) – mục tiêu khó nắm bắt là tạo ra những cỗ máy có năng lực nhận thức ngang tầm con người. Bài kiểm tra, dường như, có thể tiết lộ nhiều hơn về giới hạn của chính bài kiểm tra, và những giả định của con người chúng ta, hơn là về bản chất thực sự của trí tuệ máy móc.

Một biến tấu hiện đại cho một thí nghiệm cổ điển

Sức hấp dẫn lâu dài của Turing Test nằm ở sự đơn giản thanh lịch của nó. Turing đã hình dung ra một “trò chơi bắt chước” liên quan đến ba người chơi: một người thẩm vấn (giám khảo), một nhân chứng người và một nhân chứng máy tính. Bị cách ly với nhau, chỉ giao tiếp qua tin nhắn văn bản, các nhân chứng sẽ cố gắng thuyết phục giám khảo về danh tính con người của họ. Giám khảo, biết rằng một người tham gia là máy móc, phải xác định ai là ai. Thiên tài của thiết lập này là bản chất so sánh vốn có của nó. Nếu giám khảo xác định nhầm máy tính là con người, điều đó không chỉ ngụ ý hiệu suất thuyết phục của máy móc mà còn là một thất bại tiềm ẩn của nhân chứng người trong việc báo hiệu đầy đủ tính người của chính họ, hoặc có lẽ là sự bất lực của giám khảo trong việc nhận thức chính xác những tín hiệu đó. Nó trở thành một cuộc kiểm tra hấp dẫn về nhận thức, niềm tin của con người và những dấu hiệu tinh tế mà chúng ta liên kết với việc là con người, cũng như là một thước đo năng lực tính toán.

Dựa trên nền tảng này, các nhà nghiên cứu của UC San Diego, Cameron Jones và Benjamin Bergen, đã triển khai một phiên bản đương đại của bài kiểm tra, tận dụng sức mạnh của các LLMs hiện đại và có sự tham gia của sinh viên đại học. Thiết kế thử nghiệm của họ tuân thủ chặt chẽ cấu trúc ba bên của Turing. Sinh viên được phân công ngẫu nhiên các vai trò: một số đóng vai giám khảo, những người khác đóng vai nhân chứng người. Mỗi giám khảo tham gia vào các cuộc trò chuyện văn bản độc lập, đồng thời kéo dài năm phút với cả nhân chứng người và nhân chứng AI. Thách thức đối với giám khảo vẫn giữ nguyên: xác định máy móc.

Để khám phá khả năng của AI hiện tại, một số mô hình đã được triển khai làm nhân chứng máy tính:

  • GPT-4.5 (Minimal Prompt): Phiên bản này chỉ nhận được hướng dẫn cơ bản.
  • GPT-4.5 (PERSONA Prompt): Biến thể này được cung cấp hướng dẫn chi tiết hơn đáng kể. Lời nhắc hướng dẫn AI áp dụng một nhân cách cụ thể – đó là một “người trẻ tuổi hướng nội, hiểu biết về văn hóa internet và sử dụng tiếng lóng.” Điều này nhằm kiểm tra khả năng thích ứng của AI và khả năng bắt chước các nguyên mẫu người cụ thể.
  • GPT-4o: Mô hình nổi bật khác của OpenAI đóng vai trò là điểm so sánh.
  • Llama 3.1 405b: LLM mạnh mẽ của Meta Platforms đã được đưa vào để mở rộng phạm vi.
  • ELIZA: Một chương trình chatbot tinh túy từ những năm 1960 đã được đưa vào làm đối chứng. Sự đơn giản tương đối của nó nhằm giúp xác định xem bất kỳ thành công nào của các LLMs là do lập trình tinh vi hay chỉ đơn thuần là cơ hội ngẫu nhiên và các giám khảo dễ bị lừa.

Cách tiếp cận đa mô hình này, kết hợp với các tương tác có cấu trúc, tính thời gian và sự so sánh giữa AI được nhắc tối thiểu và AI dựa trên nhân cách, đã cung cấp một bộ dữ liệu phong phú để phân tích mức độ hiệu quả mà máy móc hiện có thể bắt chước cuộc trò chuyện của con người và cách con người cảm nhận những nỗ lực này.

Khi sự bắt chước tỏa sáng hơn thực tế

Những phát hiện từ nghiên cứu của UC San Diego không có gì đáng ngạc nhiên, đặc biệt là về hiệu suất của GPT-4.5 khi được hướng dẫn bởi lời nhắc PERSONA chi tiết. Cấu hình cụ thể này đã đạt được tỷ lệ thắng 73% đáng kinh ngạc. Về cơ bản, gần ba phần tư thời gian, các giám khảo con người tương tác với AI này đã kết luận rằng họ đang trò chuyện với một người khác. Con số này có ý nghĩa không chỉ ở giá trị tuyệt đối mà còn khi so sánh với những người tham gia khác.

Hãy xem xét các điểm chuẩn:

  • Nhân chứng người: Trớ trêu thay, những người thực sự tham gia với tư cách nhân chứng lại ít thành công hơn trong việc thuyết phục giám khảo về tính người của họ so với GPT-4.5 dựa trên nhân cách.
  • Các mô hình AI khác: GPT-4.5 với lời nhắc tối thiểu, cùng với GPT-4o và Llama 3.1 (ngay cả khi được cung cấp các lời nhắc nhân cách tương tự), đạt điểm thấp hơn đáng kể, với tỷ lệ thắng dao động trong khoảng 21% đến 56%. Điều này làm nổi bật khả năng tiên tiến của mô hình GPT-4.5 cụ thể được thử nghiệm và tác động đáng kể của việc nhắc lệnh phù hợp.
  • Hiệu suất GPT-4 trước đó: Trong một lần lặp lại thử nghiệm trước đó do cùng các nhà nghiên cứu thực hiện chỉ một năm trước, GPT-4 chỉ đạt tỷ lệ thắng 54%, chỉ vượt qua ngưỡng cơ hội ngẫu nhiên (50%). Bước nhảy vọt lên 73% với GPT-4.5 cho thấy sự tiến bộ nhanh chóng trong khả năng tạo văn bản giống người của mô hình.
  • ELIZA: Chatbot cổ điển, như mong đợi, hoạt động kém, phục vụ mục đích của nó như một đường cơ sở và xác nhận rằng thành công của các LLMs không chỉ đơn giản là do các giám khảo dễ bị lừa bởi bất kỳ chương trình nào.

Kết luận của Jones và Bergen rất rõ ràng: các giám khảo không chỉ đơn thuần là vật lộn để phân biệt người với máy; họ tích cực thiên về tin rằng GPT-4.5 dựa trên nhân cách là con người hơn là tin rằng những người tham gia thực sự là con người. Điều này cho thấy rằng AI, khi được hướng dẫn đúng cách, có thể mô phỏng các sắc thái nhận thức được của tương tác con người – thậm chí có thể lọc bỏ sự vụng về hoặc không nhất quán có trong cuộc trò chuyện thực sự của con người – hiệu quả hơn chính con người trong môi trường cụ thể, hạn chế này. Thành công không chỉ là vượt qua; đó là việc vượt qua đường cơ sở của con người về “tính người” được cảm nhận trong giới hạn của bài kiểm tra.

Rào cản giống người: Trí tuệ hay sự thích nghi?

Liệu chiến thắng của GPT-4.5 trong phiên bản hiện đại này của Turing Test có báo hiệu sự xuất hiện của AGI không? Các nhà nghiên cứu, cùng với nhiều chuyên gia trong lĩnh vực này, kêu gọi sự thận trọng. “Câu hỏi gây tranh cãi nhất” xung quanh bài kiểm tra, như Jones và Bergen thừa nhận, luôn là liệu nó có thực sự đo lường trí tuệ hay một cái gì đó hoàn toàn khác. Mặc dù khả năng của GPT-4.5 đánh lừa con người một cách hiệu quả như vậy không thể phủ nhận là một kỳ công kỹ thuật, nhưng nó có thể nói nhiều hơn về khả năng bắt chước và thích ứng tinh vi của mô hình hơn là sự hiểu biết hoặc ý thức thực sự.

Một quan điểm cho rằng các LLMs tiên tiến này đã trở nên đặc biệt thành thạo trong việc khớp mẫu và dự đoán. Được cung cấp lượng lớn dữ liệu văn bản của con người, chúng học được xác suất thống kê của các chuỗi từ, lượt trò chuyện và các yếu tố phong cách liên quan đến các loại tương tác khác nhau của con người. Lời nhắc PERSONA đã cung cấp cho GPT-4.5 một mẫu mục tiêu cụ thể – một người trẻ tuổi hướng nội, am hiểu văn hóa internet. Do đó, thành công của AI có thể được coi là một minh chứng cho khả năng “thích ứng hành vi của nó” để phù hợp với nhân cách được yêu cầu, dựa trên dữ liệu huấn luyện của nó để tạo ra các phản hồi phù hợp với hồ sơ đó. Đó là một màn trình diễn đáng chú ý về tính linh hoạt và sức mạnh tạo sinh, cho phép máy móc xuất hiện một cách thuyết phục như con người trong bối cảnh được xác định bởi lời nhắc.

Tuy nhiên, khả năng thích ứng này khác biệt với trí tuệ tổng quát mà con người sở hữu, bao gồm lý luận, hiểu sâu sắc bối cảnh, học hỏi từ những kinh nghiệm mới lạ và sở hữu ý thức – những phẩm chất mà các LLMs hiện tại không thể hiện rõ ràng. Như học giả AI Melanie Mitchell đã lập luận, sự trôi chảy trong ngôn ngữ tự nhiên, giống như việc thành thạo cờ vua, không phải là bằng chứng xác định về trí tuệ tổng quát. Nó chứng tỏ sự thành thạo một lĩnh vực kỹ năng cụ thể, mặc dù phức tạp. Do đó, trong khi hiệu suất của GPT-4.5 là một cột mốc quan trọng trong việc tạo ngôn ngữ tự nhiên, việc đóng khung nó chỉ như một bước tiến tới AGI có thể gây hiểu lầm. Dường như chính xác hơn khi mô tả nó là đạt được mức độ cao về “tính giống người”(humanlikeness) trong cuộc trò chuyện dựa trên văn bản, một khái niệm khác biệt một cách tinh tế nhưng quan trọng so với trí tuệ cấp độ con người.

Tấm gương tương tác: Bài kiểm tra tiết lộ gì về chúng ta

Có lẽ khía cạnh hấp dẫn nhất của nghiên cứu UC San Diego không nằm ở những gì nó tiết lộ về AI, mà ở những gì nó phơi bày về sự phán xét của con người và những giả định mà chúng ta mang đến các tương tác, đặc biệt là trực tuyến. Việc các giám khảo con người thường xuyên bị lừa, và đôi khi thậm chí còn ưa thích phong cách tương tác của AI, chỉ ra tính chủ quan cố hữu và những sai sót tiềm ẩn trong việc sử dụng nhận thức của con người làm trọng tài cuối cùng cho trí tuệ máy móc trong định dạng này.

Các nhà nghiên cứu đã ghi nhận những mô hình thú vị trong lý luận của các giám khảo:

  • Hành vi bất ngờ: Ngay cả chương trình ELIZA sơ khai cũng đã đánh lừa được giám khảo 23% thời gian. Điều này không phải vì ELIZA thể hiện sự xuất sắc, mà thường là vì nó không đáp ứng được những định kiến của giám khảo về cách một AI nên hành xử. Các giám khảo đã viện dẫn những lý do như nhân chứng “mỉa mai” hoặc “thô lỗ”, những đặc điểm mà họ không mong đợi từ một cỗ máy, do đó kết luận rằng đó phải là con người.
  • Tập trung vào tính xã hội hơn là trí tuệ: Trái ngược với kỳ vọng của Alan Turing rằng các giám khảo sẽ thăm dò kiến thức và năng lực trí tuệ, những người tham gia nghiên cứu này thường dường như tập trung nhiều hơn vào phong cách trò chuyện, giọng điệu cảm xúc và các tín hiệu xã hội.
  • Nghịch lý của sự không hoàn hảo: Trong một diễn biến đáng ngạc nhiên, một trong những yếu tố mà các giám khảo sử dụng để xác định chính xác một nhân chứng là con người là sự thiếu kiến thức được cảm nhận. Điều này cho thấy một giả định cơ bản rằng con người dễ sai lầm và không hoàn hảo, trong khi AI có thể được mong đợi là có kiến thức bách khoa hoặc quá chính xác.

Những quan sát này khiến Jones và Bergen khẳng định rằng các quyết định của giám khảo kết hợp “những giả định phức tạp về cách con người và hệ thống AI có thể hành xử,” vượt ra ngoài đánh giá đơn giản về trí tuệ. Các tiêu chí trở nên đan xen với kỳ vọng xã hội, phán đoán cá nhân và thậm chí cả thành kiến về khả năng công nghệ. Trong thời đại mà giao tiếp dựa trên văn bản phổ biến, chúng ta đã phát triển những thói quen và kỳ vọng ăn sâu vào các tương tác trực tuyến. Turing Test, ban đầu được thiết kế như một cuộc thăm dò mới lạ về tương tác giữa người và máy tính, giờ đây hoạt động giống như một bài kiểm tra về những thói quen và thành kiến trực tuyến của con người. Nó đo lường khả năng phân tích các nhân cách kỹ thuật số của chúng ta, bị ảnh hưởng bởi kinh nghiệm hàng ngày của chúng ta với cả con người và bot trực tuyến. Về cơ bản, Turing Test hiện đại, như được chứng minh bởi nghiên cứu này, dường như ít là một đánh giá trực tiếp về trí tuệ máy móc hơn mà là một thước đo về tính giống người được cảm nhận, được lọc qua lăng kính kỳ vọng của con người.

Vượt ra ngoài trò chơi bắt chước: Vạch ra một hướng đi mới cho việc đánh giá AI

Với hiệu suất thuyết phục của các mô hình như GPT-4.5 và những hạn chế cũng như thành kiến được nhấn mạnh vốn có trong định dạng Turing Test truyền thống, câu hỏi đặt ra là: Liệu tiêu chuẩn hàng thập kỷ này có còn là công cụ phù hợp để đo lường tiến trình hướng tới AGI không? Các nhà nghiên cứu của UC San Diego, cùng với một dàn đồng ca ngày càng tăng trong cộng đồng AI, cho rằng có lẽ là không – ít nhất, không phải là một thước đo duy nhất hoặc quyết định.

Chính sự thành công của GPT-4.5, đặc biệt là sự phụ thuộc vào lời nhắc PERSONA, đã nhấn mạnh một hạn chế chính: bài kiểm tra đánh giá hiệu suất trong một bối cảnh trò chuyện cụ thể, thường là hẹp. Nó không nhất thiết thăm dò các khả năng nhận thức sâu hơn như lý luận, lập kế hoạch, sáng tạo hoặc hiểu biết thông thường trong các tình huống đa dạng. Như Jones và Bergen đã tuyên bố, “trí tuệ phức tạp và đa diện,” ngụ ý rằng “không có bài kiểm tra trí tuệ đơn lẻ nào có thể mang tính quyết định.”

Điều này chỉ ra sự cần thiết của một bộ phương pháp đánh giá toàn diện hơn. Một số hướng đi tiềm năng xuất hiện:

  1. Thiết kế bài kiểm tra sửa đổi: Chính các nhà nghiên cứu đề xuất các biến thể. Điều gì sẽ xảy ra nếu giám khảo là các chuyên gia AI, sở hữu những kỳ vọng khác nhau và có lẽ các phương pháp tinh vi hơn để thăm dò khả năng của máy móc? Điều gì sẽ xảy ra nếu các ưu đãi tài chính đáng kể được đưa vào, khuyến khích các giám khảo xem xét kỹ lưỡng và suy nghĩ cẩn thận hơn về các phản hồi? Những thay đổi này có thể làm thay đổi động lực và có khả năng mang lại kết quả khác nhau, làm nổi bật hơn nữa ảnh hưởng của bối cảnh và động lực đối với kết quả của bài kiểm tra.
  2. Kiểm tra năng lực rộng hơn: Vượt ra ngoài sự trôi chảy trong giao tiếp, các đánh giá có thể tập trung vào một loạt các nhiệm vụ rộng hơn đòi hỏi các khía cạnh khác nhau của trí tuệ – giải quyết vấn đề trong các lĩnh vực mới lạ, lập kế hoạch dài hạn, hiểu các mối quan hệ nhân quả phức tạp hoặc thể hiện sự sáng tạo thực sự thay vì phối lại tinh vi dữ liệu huấn luyện.
  3. Đánh giá có sự tham gia của con người (HITL - Human-in-the-Loop): Ngày càng có xu hướng tích hợp sự phán xét của con người một cách có hệ thống hơn vào việc đánh giá AI, nhưng có lẽ theo những cách có cấu trúc hơn so với Turing Test cổ điển. Điều này có thể liên quan đến việc con người đánh giá đầu ra của AI dựa trên các tiêu chí cụ thể (ví dụ: độ chính xác thực tế, sự mạch lạc logic, cân nhắc đạo đức, tính hữu dụng) thay vì chỉ đưa ra phán quyết nhị phân người/máy. Con người có thể giúp tinh chỉnh các mô hình, xác định điểm yếu và hướng dẫn phát triển dựa trên phản hồi sắc thái.

Ý tưởng cốt lõi là việc đánh giá một thứ phức tạp như trí tuệ đòi hỏi phải nhìn xa hơn sự bắt chước đơn giản. Mặc dù Turing Test cung cấp một khuôn khổ ban đầu có giá trị và tiếp tục khơi dậy các cuộc thảo luận quan trọng, việc chỉ dựa vào nó có nguy cơ nhầm lẫn sự bắt chước tinh vi với sự hiểu biết thực sự. Con đường hướng tới hiểu biết và có khả năng đạt được AGI đòi hỏi các phương pháp đánh giá phong phú hơn, đa dạng hơn và có lẽ nghiêm ngặt hơn.

Bí ẩn của AGI và tương lai của việc đánh giá

Các thí nghiệm gần đây nhấn mạnh một thách thức cơ bản vượt ra ngoài chính Turing Test: chúng ta gặp khó khăn trong việc xác định chính xác điều gì cấu thành Trí tuệ Nhân tạo Tổng quát, chứ chưa nói đến việc thống nhất về cách chúng ta sẽ nhận ra nó một cách chắc chắn nếu chúng ta gặp phải nó. Nếu con người, với tất cả những thành kiến và giả định cố hữu của họ, có thể dễ dàng bị lung lay bởi một LLM được nhắc lệnh tốt trong một giao diện trò chuyện đơn giản, làm thế nào chúng ta có thể đánh giá một cách đáng tin cậy các khả năng nhận thức sâu hơn của các hệ thống tương lai có khả năng tiên tiến hơn nhiều?

Hành trình hướng tới AGI bị bao phủ trong sự mơ hồ. Nghiên cứu của UC San Diego đóng vai trò như một lời nhắc nhở mạnh mẽ rằng các tiêu chuẩn hiện tại của chúng ta có thể không đủ cho nhiệm vụ phía trước. Nó nhấn mạnh khó khăn sâu sắc trong việc tách biệt hành vi mô phỏng khỏi sự hiểu biết thực sự, đặc biệt là khi mô phỏng ngày càng trở nên tinh vi. Điều này dẫn đến những câu hỏi mang tính suy đoán, nhưng đầy kích thích tư duy, về các mô hình đánh giá trong tương lai. Liệu chúng ta có thể đạt đến một điểm, gợi nhớ đến các câu chuyện khoa học viễn tưởng, nơi sự phán xét của con người được coi là quá không đáng tin cậy để phân biệt AI tiên tiến với con người?

Có lẽ, một cách nghịch lý, việc đánh giá trí tuệ máy móc rất tiên tiến sẽ cần sự hỗ trợ từ các máy móc khác. Các hệ thống được thiết kế đặc biệt để thăm dò chiều sâu nhận thức, tính nhất quán và lý luận thực sự, có khả năng ít bị ảnh hưởng bởi các tín hiệu xã hội và thành kiến làm lung lay các giám khảo con người, có thể trở thành thành phần cần thiết của bộ công cụ đánh giá. Hoặc, ít nhất, sự hiểu biết sâu sắc hơn về sự tương tác giữa hướng dẫn của con người (lời nhắc), sự thích ứng của AI và nhận thức về trí tuệ kết quả sẽ rất quan trọng. Chúng ta có thể cần hỏi máy móc chúng nhận thấy điều gì khi quan sát các máy móc khác phản ứng với nỗ lực của con người nhằm gợi ra các hành vi cụ thể, có khả năng lừa đảo. Hành trình đo lường AI buộc chúng ta phải đối mặt không chỉ với bản chất của trí tuệ máy móc mà còn cả bản chất phức tạp, thường gây ngạc nhiên của chính chúng ta.