Ảo tưởng về độ chính xác
Lời hứa cơ bản của các công cụ tìm kiếm là kết nối người dùng với các nguồn đáng tin cậy. Giờ đây, lời hứa đó đang bị xói mòn. Các công cụ tìm kiếm được hỗ trợ bởi AI ngày càng ưu tiên tốc độ hơn chất lượng, đưa ra các câu trả lời có vẻ tự tin nhưng thiếu sự hỗ trợ cần thiết của bằng chứng có thể kiểm chứng. Những gì chúng ta đang chứng kiến là sự chuyển đổi từ một hệ thống hướng dẫn người dùng đến thông tin đáng tin cậy, sang một hệ thống tạo ra các phản hồi, thường ít quan tâm đến tính trung thực của chúng.
Đây không chỉ đơn thuần là vấn đề lỗi thường xuyên. Đó là một vấn đề mang tính hệ thống. Nghiên cứu của CJR tiết lộ rằng các công cụ tìm kiếm AI không chỉ mắc lỗi; chúng đang tích cực xây dựng một thực tế tách rời khỏi các nguồn có thể kiểm chứng. Chúng đang thu thập nội dung từ khắp nơi trên web, nhưng thay vì hướng người dùng đến các nguồn gốc – các trang web sản xuất và xuất bản thông tin một cách tỉ mỉ – chúng đang cung cấp các câu trả lời tức thì, thường là bịa đặt.
Sự sụt giảm lưu lượng truy cập và các trích dẫn ma
Hậu quả của cách tiếp cận này rất sâu rộng. Tác động tức thời là sự sụt giảm đáng kể lưu lượng truy cập đến các nguồn thông tin gốc. Các trang web, tổ chức tin tức và nhà nghiên cứu đầu tư thời gian và nguồn lực vào việc tạo nội dung đang thấy mình bị bỏ qua. Người dùng đang nhận được câu trả lời trực tiếp từ AI, không cần phải truy cập các trang web tạo ra thông tin.
Một nghiên cứu riêng biệt xác nhận xu hướng đáng báo động này, cho thấy tỷ lệ nhấp từ kết quả tìm kiếm và chatbot do AI tạo ra thấp hơn đáng kể so với các công cụ tìm kiếm truyền thống như Google. Điều này có nghĩa là huyết mạch của nội dung trực tuyến – khả năng tiếp cận đối tượng – đang dần bị bóp nghẹt.
Nhưng vấn đề còn sâu sắc hơn. Các công cụ AI này không chỉ không ghi nhận nguồn; chúng thường tạo ra các trích dẫn ma. Chúng đang tạo các liên kết đến các trang web không tồn tại hoặc đến các URL bị hỏng hoặc không liên quan. Điều này giống như một sinh viên viết một bài nghiên cứu và bịa ra các nguồn để hỗ trợ cho tuyên bố của họ. Nó không chỉ cẩu thả; đó là một sự vi phạm cơ bản về sự trung thực trí tuệ.
Đi sâu vào sự lừa dối
Nghiên cứu của CJR đã phân tích tỉ mỉ hiệu suất của một số mô hình tìm kiếm AI hàng đầu. Những phát hiện này rất đáng lo ngại. Hơn một nửa số trích dẫn được tạo bởi Google’s Gemini và xAI’s Grok 3 – hai công ty nổi bật trong lĩnh vực tìm kiếm AI – dẫn đến các trang web bịa đặt hoặc không thể truy cập. Đây không phải là một trục trặc nhỏ; đó là một thất bại mang tính hệ thống.
Và vấn đề vượt ra ngoài các trích dẫn. Các chatbot, nói chung, được phát hiện cung cấp thông tin không chính xác trong hơn 60% trường hợp. Trong số các mô hình được đánh giá, Grok 3 nổi lên là kẻ vi phạm tồi tệ nhất, với 94% phản hồi chứa thông tin không chính xác. Gemini, mặc dù hoạt động tốt hơn một chút, vẫn chỉ đưa ra câu trả lời hoàn toàn chính xác một lần trong mỗi mười lần thử. Ngay cả Perplexity, nổi lên là mô hình chính xác nhất trong số các mô hình được thử nghiệm, vẫn trả về các phản hồi không chính xác 37% thời gian.
Những con số này không chỉ là thống kê; chúng đại diện cho một sự cố cơ bản về độ tin cậy của thông tin. Chúng cho thấy rằng chính các công cụ được thiết kế để giúp chúng ta điều hướng sự phức tạp của thế giới kỹ thuật số, trên thực tế, đang dẫn chúng ta đi lạc đường.
Bỏ qua các quy tắc: Robot Exclusion Protocol
Các tác giả của nghiên cứu đã phát hiện ra một khía cạnh đáng lo ngại khác của sự lừa dối do AI điều khiển này. Một số mô hình AI dường như cố tình không tuân thủ Robot Exclusion Protocol. Giao thức này là một cơ chế tiêu chuẩn, được áp dụng rộng rãi, cho phép các trang web kiểm soát phần nào của trang web của họ có thể được truy cập và thu thập bởi các bot tự động. Đó là một cách để các trang web bảo vệ nội dung của họ và quản lý cách nó được sử dụng.
Việc các công cụ tìm kiếm AI bỏ qua giao thức này đặt ra những câu hỏi nghiêm trọng về đạo đức. Nó cho thấy sự coi thường quyền của người tạo nội dung và sự sẵn sàng khai thác thông tin trực tuyến mà không được phép. Hành vi này làm suy yếu nền tảng của web, vốn dựa trên sự cân bằng tinh tế giữa quyền truy cập thông tin và bảo vệ sở hữu trí tuệ.
Tiếng vọng của những cảnh báo trong quá khứ
Những phát hiện của nghiên cứu CJR không phải là cá biệt. Chúng cộng hưởng với một nghiên cứu trước đó được công bố vào tháng 11 năm 2024, tập trung vào khả năng tìm kiếm của ChatGPT. Cuộc điều tra trước đó đã tiết lộ một mô hình nhất quán về các phản hồi tự tin nhưng không chính xác, các trích dẫn gây hiểu lầm và việc truy xuất thông tin không đáng tin cậy. Nói cách khác, các vấn đề được CJR xác định không phải là mới; chúng là dai dẳng và mang tính hệ thống.
Sự xói mòn lòng tin và quyền tự quyết
Các chuyên gia trong lĩnh vực này đã gióng lên hồi chuông cảnh báo về sự nguy hiểm của AI tạo sinh trong một thời gian. Các nhà phê bình như Chirag Shah và Emily M. Bender đã bày tỏ lo ngại rằng các công cụ tìm kiếm AI đang làm xói mòn quyền tự quyết của người dùng, khuếch đại sự thiên vị trong việc truy cập thông tin và thường xuyên đưa ra các câu trả lời gây hiểu lầm hoặc thậm chí độc hại mà người dùng có thể chấp nhận mà không cần thắc mắc.
Vấn đề cốt lõi là các mô hình AI này được thiết kế để nghe có vẻ có thẩm quyền, ngay cả khi chúng sai. Chúng được đào tạo trên các tập dữ liệu văn bản và mã khổng lồ, và chúng có khả năng tạo ra các phản hồi bắt chước ngôn ngữ của con người với sự trôi chảy đáng kể. Nhưng sự trôi chảy này có thể gây hiểu lầm. Nó có thể che giấu sự thật rằng thông tin cơ bản là sai sót, bịa đặt hoặc đơn giản là không chính xác.
Cơ chế của thông tin sai lệch
Nghiên cứu của CJR bao gồm một phân tích chi tiết về 1.600 truy vấn, được thiết kế để so sánh cách các mô hình tìm kiếm AI tạo sinh khác nhau truy xuất thông tin. Các nhà nghiên cứu tập trung vào các yếu tố chính như tiêu đề, nhà xuất bản, ngày xuất bản và URL. Họ đã thử nghiệm một loạt các mô hình, bao gồm ChatGPT Search, Microsoft CoPilot, DeepSeek Search, Perplexity (và phiên bản Pro của nó), xAI’s Grok-2 và Grok-3 Search, và Google Gemini.
Phương pháp thử nghiệm rất nghiêm ngặt. Các nhà nghiên cứu đã sử dụng các đoạn trích trực tiếp từ mười bài báo được chọn ngẫu nhiên, có nguồn gốc từ 20 nhà xuất bản khác nhau. Cách tiếp cận này đảm bảo rằng các truy vấn dựa trên nội dung thực tế và các mô hình đang được đánh giá về khả năng truy xuất và thể hiện chính xác nội dung đó.
Kết quả, như đã trình bày chi tiết trước đó, vẽ ra một bức tranh ảm đạm về tình trạng tìm kiếm do AI điều khiển. Các công cụ ngày càng trở thành cổng thông tin chính của chúng ta đang chứng tỏ là không đáng tin cậy, dễ bị bịa đặt và thường không tôn trọng chính các nguồn mà chúng dựa vào.
Ý nghĩa đối với tương lai của thông tin
Ý nghĩa của thông tin sai lệch lan rộng này là rất sâu sắc. Nếu chúng ta không thể tin tưởng vào các công cụ chúng ta sử dụng để tìm kiếm thông tin, làm thế nào chúng ta có thể đưa ra quyết định sáng suốt? Làm thế nào chúng ta có thể tham gia vào cuộc tranh luận có ý nghĩa? Làm thế nào chúng ta có thể buộc những người có quyền lực phải chịu trách nhiệm?
Sự trỗi dậy của tìm kiếm được hỗ trợ bởi AI, với những sai sót và thành kiến vốn có, đặt ra một mối đe dọa đáng kể đối với chính kết cấu của hệ sinh thái thông tin của chúng ta. Nó làm suy yếu uy tín của các tổ chức tin tức, nhà nghiên cứu và những người tạo nội dung khác. Nó làm xói mòn niềm tin của công chúng vào các tổ chức. Và nó trao quyền cho những người tìm cách truyền bá thông tin sai lệch và thao túng dư luận.
Thách thức trước mắt chúng ta không chỉ đơn giản là cải thiện độ chính xác của các công cụ tìm kiếm AI. Đó là suy nghĩ lại một cách cơ bản về cách chúng ta tiếp cận việc tìm kiếm thông tin trong thời đại kỹ thuật số. Chúng ta cần ưu tiên tính minh bạch, trách nhiệm giải trình và tôn trọng các nguồn thông tin. Chúng ta cần phát triển các công cụ và chiến lược trao quyền cho người dùng đánh giá một cách phê phán thông tin mà họ gặp phải trên mạng. Và chúng ta cần nuôi dưỡng một nền văn hóa hoài nghi và tư duy phản biện, nơi chúng ta không chỉ là những người tiếp nhận thông tin thụ động, mà là những người tham gia tích cực vào việc theo đuổi sự thật. Tương lai của diễn ngôn thông tin, và có lẽ ngay cả bản thân nền dân chủ, phụ thuộc vào nó.
Cuộc khủng hoảng thông tin sai lệch trong tìm kiếm được hỗ trợ bởi AI không chỉ là một vấn đề kỹ thuật; đó là một vấn đề xã hội. Nó đòi hỏi một phản ứng nhiều mặt, liên quan đến không chỉ các kỹ sư và nhà phát triển, mà còn cả các nhà báo, nhà giáo dục, nhà hoạch định chính sách và công chúng nói chung. Chúng ta phải cùng nhau làm việc để xây dựng một hệ sinh thái thông tin đáng tin cậy, minh bạch hơn, phục vụ nhu cầu của những công dân có hiểu biết, chứ không phải những người cung cấp thông tin sai lệch.
Quỹ đạo hiện tại là không bền vững. Nếu tìm kiếm AI tiếp tục ưu tiên tốc độ và sự tiện lợi hơn độ chính xác và sự thật, chúng ta có nguy cơ tạo ra một thế giới nơi thông tin sai lệch ngự trị, và nơi mà chính khái niệm về thực tế khách quan ngày càng trở nên khó nắm bắt. Cái giá phải trả đơn giản là quá cao để cho phép điều này xảy ra.