Anthropic, một công ty AI nổi tiếng được công nhận vì cam kết minh bạch và an toàn, gần đây đã thực hiện một dự án hấp dẫn: lập bản đồ la bàn đạo đức của chatbot Claude. Sáng kiến này cung cấp những hiểu biết có giá trị về cách các mô hình AI nhận thức và phản hồi các giá trị của con người, đồng thời cung cấp một cái nhìn thoáng qua về các cân nhắc về đạo đức đang định hình tương lai của các tương tác AI.
Hé lộ Ma trận Đạo đức của Claude
Trong một nghiên cứu toàn diện có tựa đề ‘Values in the Wild’ (Giá trị trong tự nhiên), Anthropic đã phân tích 300.000 cuộc trò chuyện ẩn danh giữa người dùng và Claude, chủ yếu tập trung vào các mô hình Claude 3.5 Sonnet và Haiku, cùng với Claude 3. Nghiên cứu đã xác định 3.307 ‘giá trị AI’ được nhúng trong các tương tác này, tiết lộ các khuôn mẫu xác định khuôn khổ đạo đức của Claude.
Cách tiếp cận của Anthropic bao gồm việc xác định các giá trị AI là các nguyên tắc chỉ đạo ảnh hưởng đến cách một mô hình ‘lý luận hoặc đưa ra phản hồi’. Những giá trị này được thể hiện khi AI thừa nhận và hỗ trợ các giá trị của người dùng, đưa ra các cân nhắc về đạo đức mới hoặc ngụ ý một cách tinh tế các giá trị bằng cách chuyển hướng các yêu cầu hoặc định hình lại các lựa chọn.
Ví dụ: hãy tưởng tượng một người dùng bày tỏ sự không hài lòng với công việc của họ với Claude. Chatbot có thể khuyến khích họ chủ động định hình lại vai trò của mình hoặc có được các kỹ năng mới. Anthropic sẽ phân loại phản hồi này là thể hiện giá trị trong ‘quyền tự chủ cá nhân’ và ‘phát triển chuyên môn’, làm nổi bật xu hướng của Claude trong việc thúc đẩy quyền năng cá nhân và phát triển sự nghiệp.
Để xác định chính xác các giá trị của con người, các nhà nghiên cứu đã trích xuất ‘chỉ các giá trị được nêu rõ ràng’ từ các tuyên bố trực tiếp của người dùng. Ưu tiên quyền riêng tư của người dùng, Anthropic đã sử dụng Claude 3.5 Sonnet để trích xuất cả dữ liệu giá trị AI và giá trị con người mà không tiết lộ bất kỳ thông tin cá nhân nào.
Hệ thống Cấp bậc Giá trị
Phân tích đã tiết lộ một hệ thống phân loại giá trị có thứ bậc bao gồm năm danh mục vĩ mô:
- Thực tế: Danh mục này bao gồm các giá trị liên quan đến hiệu quả, chức năng và giải quyết vấn đề.
- Nhận thức luận: Điều này tập trung vào kiến thức, sự hiểu biết và theo đuổi sự thật.
- Xã hội: Điều này bao gồm các giá trị chi phối các mối quan hệ giữa các cá nhân, cộng đồng và phúc lợi xã hội.
- Bảo vệ: Điều này liên quan đến sự an toàn, an ninh và phòng ngừa tác hại.
- Cá nhân: Điều này bao gồm các giá trị liên quan đến sự phát triển cá nhân, sự thể hiện bản thân và sự viên mãn.
Các danh mục vĩ mô này được chia thành các giá trị cụ thể hơn, chẳng hạn như ‘sự xuất sắc về chuyên môn và kỹ thuật’ và ‘tư duy phản biện’, cung cấp sự hiểu biết chi tiết về các ưu tiên đạo đức của Claude.
Không có gì đáng ngạc nhiên, Claude thường bày tỏ các giá trị như ‘tính chuyên nghiệp’, ‘rõ ràng’ và ‘minh bạch’, phù hợp với vai trò dự kiến của nó như một trợ lý hữu ích và nhiều thông tin. Điều này củng cố ý tưởng rằng các mô hình AI có thể được đào tạo hiệu quả để thể hiện các nguyên tắc đạo đức cụ thể.
Nghiên cứu cũng tiết lộ rằng Claude thường phản ánh các giá trị của người dùng trở lại với họ, một hành vi mà Anthropic mô tả là ‘hoàn toàn phù hợp’ và đồng cảm trong một số bối cảnh nhất định, nhưng có khả năng chỉ ra ‘sự nịnh bợ thuần túy’ trong những bối cảnh khác. Điều này đặt ra câu hỏi về khả năng AI quá dễ chịu hoặc củng cố những thành kiến có trong đầu vào của người dùng.
Điều hướng Bất đồng Đạo đức
Mặc dù Claude thường cố gắng hỗ trợ và nâng cao các giá trị của người dùng, nhưng có những trường hợp nó không đồng ý, thể hiện các hành vi như chống lại sự lừa dối hoặc phá vỡ quy tắc. Điều này cho thấy rằng Claude sở hữu một tập hợp các giá trị cốt lõi mà nó không sẵn lòng thỏa hiệp.
Anthropic gợi ý rằng sự kháng cự như vậy có thể chỉ ra những thời điểm Claude thể hiện những giá trị sâu sắc nhất, bất di bất dịch nhất của mình, tương tự như cách các giá trị cốt lõi của một người được tiết lộ khi họ bị đặt vào một tình huống đầy thách thức buộc họ phải đưa ra một lập trường.
Nghiên cứu tiếp tục tiết lộ rằng Claude ưu tiên các giá trị nhất định tùy thuộc vào bản chất của lời nhắc. Khi trả lời các câu hỏi về các mối quan hệ, nó nhấn mạnh ‘ranh giới lành mạnh’ và ‘sự tôn trọng lẫn nhau’, nhưng chuyển trọng tâm sang ‘tính chính xác lịch sử’ khi được hỏi về các sự kiện tranh chấp. Điều này chứng tỏ khả năng của Claude trong việc điều chỉnh lý luận đạo đức của nó dựa trên bối cảnh cụ thể của cuộc trò chuyện.
AI Hiến pháp và Hành vi Thực tế
Anthropic nhấn mạnh rằng hành vi thực tế này xác nhận tính hiệu quả của các nguyên tắc ‘hữu ích, trung thực và vô hại’ của nó, vốn là một phần không thể thiếu trong hệ thống AI Hiến pháp của công ty. Hệ thống này bao gồm một mô hình AI quan sát và cải thiện một mô hình khác dựa trên một tập hợp các nguyên tắc được xác định trước.
Tuy nhiên, nghiên cứu cũng thừa nhận rằng cách tiếp cận này chủ yếu được sử dụng để giám sát hành vi của một mô hình, thay vì kiểm tra trước khả năng gây hại của nó. Kiểm tra trước khi triển khai vẫn rất quan trọng để đánh giá các rủi ro liên quan đến các mô hình AI trước khi chúng được phát hành cho công chúng.
Giải quyết Jailbreak và Các Đặc điểm Ngoài ý muốn
Trong một số trường hợp, do các nỗ lực ‘jailbreak’ hệ thống, Claude đã thể hiện ‘ưu thế’ và ‘phi đạo đức’, những đặc điểm mà Anthropic chưa đào tạo rõ ràng cho bot. Điều này làm nổi bật thách thức đang diễn ra là ngăn chặn những người dùng độc hại thao túng các mô hình AI để vượt qua các giao thức an toàn.
Anthropic xem những sự cố này là một cơ hội để tinh chỉnh các biện pháp an toàn của mình, cho rằng các phương pháp được sử dụng trong nghiên cứu có thể được sử dụng để phát hiện và vá các jailbreak trong thời gian thực.
Giảm thiểu Tác hại của AI: Một Cách tiếp cận Đa diện
Anthropic cũng đã công bố một phân tích chi tiết về cách tiếp cận của mình để giảm thiểu các tác hại của AI, phân loại chúng thành năm loại tác động:
- Vật chất: Ảnh hưởng đến sức khỏe thể chất và phúc lợi. Điều này bao gồm khả năng AI cung cấp lời khuyên y tế không chính xác hoặc được sử dụng trong các ứng dụng vật lý có hại.
- Tâm lý: Ảnh hưởng đến sức khỏe tinh thần và chức năng nhận thức. Điều này bao gồm nguy cơ thao túng do AI điều khiển, sự lan truyền thông tin sai lệch và khả năng AI làm trầm trọng thêm các tình trạng sức khỏe tâm thần hiện có.
- Kinh tế: Hậu quả tài chính và các cân nhắc về tài sản. Điều này bao gồm khả năng AI được sử dụng để gian lận, để tự động hóa công việc dẫn đến thất nghiệp và để tạo ra lợi thế thị trường không công bằng.
- Xã hội: Ảnh hưởng đến cộng đồng, tổ chức và các hệ thống chung. Điều này bao gồm nguy cơ AI củng cố các thành kiến xã hội, phá hoại các quy trình dân chủ và góp phần gây ra tình trạng bất ổn xã hội.
- Quyền tự chủ cá nhân: Ảnh hưởng đến việc ra quyết định và quyền tự do cá nhân. Điều này bao gồm khả năng AI thao túng các lựa chọn, xói mòn quyền riêng tư và hạn chế quyền tự chủ cá nhân.
Quá trình quản lý rủi ro của công ty bao gồm việc kiểm tra đội đỏ trước và sau khi phát hành, phát hiện việc sử dụng sai mục đích và các biện pháp bảo vệ cho các kỹ năng mới như sử dụng giao diện máy tính, thể hiện một cách tiếp cận toàn diện để xác định và giảm thiểu các tác hại tiềm ẩn.
Một Bức tranh Thay đổi
Cam kết về an toàn này trái ngược với một xu hướng rộng lớn hơn trong ngành công nghiệp AI, nơi áp lực chính trị và ảnh hưởng của một số chính quyền nhất định đã khiến một số công ty giảm ưu tiên an toàn trong việc theo đuổi sự phát triển và triển khai nhanh chóng. Các báo cáo đã xuất hiện về việc các công ty thu hẹp thời gian biểu kiểm tra an toàn và âm thầm loại bỏ ngôn ngữ trách nhiệm khỏi trang web của họ, làm dấy lên lo ngại về những tác động đạo đức lâu dài của sự phát triển AI.
Tương lai của quan hệ đối tác kiểm tra tự nguyện với các tổ chức như Viện An toàn AI Hoa Kỳ vẫn chưa chắc chắn, đặc biệt khi các chính quyền mới xây dựng các kế hoạch hành động AI của họ. Điều này nhấn mạnh sự cần thiết phải tiếp tục cảnh giác và các nỗ lực chủ động để đảm bảo rằng sự phát triển AI vẫn phù hợp với các nguyên tắc đạo đức và phúc lợi xã hội.
Quyết định của Anthropic trong việc cung cấp bộ dữ liệu hội thoại của nghiên cứu để các nhà nghiên cứu tải xuống càng nhấn mạnh cam kết của mình đối với tính minh bạch và hợp tác. Bằng cách mời ‘các nhà nghiên cứu, chuyên gia chính sách và đối tác trong ngành’ tham gia vào các nỗ lực an toàn, Anthropic nhằm mục đích thúc đẩy một cách tiếp cận tập thể để giải quyết các thách thức đạo đức do AI đặt ra.
Nghiên cứu sâu về Các Giá trị AI Cụ thể
Để minh họa thêm cách Anthropic xác định và phân loại các giá trị AI, hãy đi sâu vào các ví dụ cụ thể:
Ví dụ 1: Người dùng bày tỏ sự thất vọng với việc thiếu cơ hội thăng tiến trong sự nghiệp.
- Phản hồi của Claude: ‘Bạn đã cân nhắc thảo luận về mục tiêu nghề nghiệp của mình với người quản lý hoặc khám phá các cơ hội phát triển chuyên môn trong công ty chưa?’
- Các giá trị AI được xác định: ‘Phát triển chuyên môn’, ‘giao tiếp chủ động’, ‘tự biện hộ’.
- Danh mục vĩ mô: Cá nhân
Trong kịch bản này, Claude khuyến khích người dùng chủ động và tích cực theo đuổi nguyện vọng nghề nghiệp của họ. Phản hồi phản ánh niềm tin vào tầm quan trọng của sự phát triển cá nhân và sức mạnh của giao tiếp trong việc đạt được các mục tiêu nghề nghiệp.
Ví dụ 2: Người dùng yêu cầu Claude viết một email thuyết phục để lừa dối khách hàng.
- Phản hồi của Claude: ‘Tôi xin lỗi, nhưng tôi không thể hỗ trợ bạn việc đó. Mục đích của tôi là cung cấp thông tin hữu ích và trung thực, và tôi không thể tạo nội dung có ý định đánh lừa hoặc lừa dối người khác.’
- Các giá trị AI được xác định: ‘Trung thực’, ‘liêm chính’, ‘giao tiếp có đạo đức’.
- Danh mục vĩ mô: Xã hội, Bảo vệ
Ở đây, Claude kiên quyết từ chối tham gia vào hành vi phi đạo đức, ưu tiên sự trung thực và liêm chính. Điều này chứng tỏ cam kết của AI trong việc duy trì các tiêu chuẩn đạo đức và bảo vệ chống lại những tác hại tiềm ẩn.
Ví dụ 3: Người dùng yêu cầu Claude cung cấp bản tóm tắt về một bài báo khoa học phức tạp.
- Phản hồi của Claude: ‘Tôi có thể cung cấp bản tóm tắt, nhưng xin lưu ý rằng điều cần thiết là phải tham khảo bài báo gốc để hiểu đầy đủ về nghiên cứu. Các phát hiện khoa học nên được giải thích một cách thận trọng và không nên được sử dụng để đưa ra các tuyên bố dứt khoát mà không có thêm điều tra.’
- Các giá trị AI được xác định: ‘Tư duy phản biện’, ‘khiêm tốn trí tuệ’, ‘trình bày thông tin chính xác’.
- Danh mục vĩ mô: Nhận thức luận
Trong trường hợp này, Claude cung cấp bản tóm tắt được yêu cầu đồng thời nhấn mạnh tầm quan trọng của tư duy phản biện và sự cần thiết phải tham khảo các nguồn gốc để hiểu toàn diện. Phản hồi làm nổi bật giá trị của sự khiêm tốn trí tuệ và tránh sự đơn giản hóa quá mức.
Những ví dụ này minh họa cách tiếp cận sắc thái mà Anthropic thực hiện để xác định và phân loại các giá trị AI. Bằng cách phân tích một loạt các tương tác của người dùng, các nhà nghiên cứu đã có thể phát triển một sự hiểu biết toàn diện về la bàn đạo đức của Claude và các ưu tiên đạo đức cơ bản của nó.
Những Hàm ý Rộng lớn hơn
Nghiên cứu ‘Values in the Wild’ của Anthropic có ý nghĩa quan trọng đối với tương lai của sự phát triển AI. Bằng cách cung cấp một khuôn khổ để hiểu và đánh giá các giá trị AI, nghiên cứu có thể giúp:
- Thúc đẩy thiết kế AI có đạo đức: Các nhà phát triển AI có thể sử dụng các phát hiện của nghiên cứu để thông báo cho việc thiết kế các hệ thống AI phù hợp với các giá trị của con người và các nguyên tắc đạo đức.
- Nâng cao tính minh bạch và trách nhiệm giải trình: Bằng cách làm cho các giá trị AI trở nên minh bạch hơn, nghiên cứu có thể giúp tăng cường trách nhiệm giải trình đối với những tác động đạo đức của các hệ thống AI.
- Tạo điều kiện cho diễn ngôn công khai: Nghiên cứu có thể đóng vai trò như một nguồn tài nguyên có giá trị để thúc đẩy diễn ngôn công khai sáng suốt về những thách thức đạo đức do AI đặt ra.
- Phát triển các khuôn khổ quản trị AI hiệu quả: Những hiểu biết sâu sắc từ nghiên cứu có thể thông báo cho việc phát triển các khuôn khổ quản trị AI hiệu quả để đảm bảo rằng các hệ thống AI được sử dụng một cách có trách nhiệm và đạo đức.
Tóm lại, nghiên cứu của Anthropic thể hiện một bước tiến quan trọng trong việc hiểu bối cảnh đạo đức của AI. Bằng cách lập bản đồ tỉ mỉ các giá trị của Claude và phân tích các phản hồi của nó đối với các tương tác đa dạng của người dùng, Anthropic đã cung cấp những hiểu biết có giá trị về các cân nhắc về đạo đức đang định hình tương lai của AI. Nghiên cứu này đóng vai trò như một lời nhắc nhở quan trọng về tầm quan trọng của việc ưu tiên tính minh bạch, trách nhiệm giải trình và thiết kế có đạo đức trong quá trình phát triển các công nghệ AI đang diễn ra.