Đánh giá AI tạo ảnh của HKU Business School

Phương pháp đánh giá: Cách tiếp cận đa diện

Nhóm nghiên cứu của HKU Business School đã sử dụng một phương pháp đánh giá được thiết kế để cung cấp một đánh giá tổng thể và khách quan về khả năng tạo ảnh của các mô hình AI. Phân tích tập trung vào hai nhiệm vụ cốt lõi:

  • Tạo ảnh mới: Đánh giá khả năng của các mô hình trong việc tạo ảnh từ các câu lệnh văn bản (text prompts).
  • Chỉnh sửa ảnh: Đánh giá khả năng của các mô hình trong việc sửa đổi ảnh hiện có dựa trên các hướng dẫn cụ thể.

Đối với nhiệm vụ tạo ảnh mới, việc đánh giá bao gồm hai khía cạnh quan trọng:

Chất lượng nội dung hình ảnh

Khía cạnh này đi sâu vào độ trung thực của hình ảnh và tính thẩm mỹ của hình ảnh được tạo ra. Ba tiêu chí chính đã được sử dụng để đánh giá chất lượng nội dung:

  1. Tính phù hợp với câu lệnh (Prompts): Tiêu chí này đánh giá độ chính xác mà hình ảnh được tạo ra phản ánh các đối tượng, cảnh vật và khái niệm được mô tả trong câu lệnh văn bản. Hình ảnh càng khớp với ý định của câu lệnh, điểm số càng cao.

  2. Tính toàn vẹn của hình ảnh: Khía cạnh này tập trung vào độ chính xác thực tế và độ tin cậy của hình ảnh được tạo ra. Nó đảm bảo rằng hình ảnh tuân thủ các nguyên tắc của thế giới thực và tránh tạo ra các kịch bản vô nghĩa hoặc không thể thực hiện được về mặt vật lý.

  3. Tính thẩm mỹ của hình ảnh: Tiêu chí này đánh giá chất lượng nghệ thuật của hình ảnh được tạo ra, xem xét các yếu tố như bố cục, sự hài hòa màu sắc, độ rõ nét và tính sáng tạo tổng thể. Những hình ảnh thể hiện sự hấp dẫn về mặt hình ảnh và giá trị nghệ thuật mạnh mẽ sẽ nhận được điểm số cao hơn.

Để đảm bảo tính khoa học, các chuyên gia đã tiến hành so sánh theo cặp giữa các mô hình và thứ hạng cuối cùng được xác định bằng hệ thống xếp hạng Elo. Cách tiếp cận này cho phép đánh giá khách quan và chi tiết về hiệu suất tương đối của từng mô hình.

An toàn và Trách nhiệm

Ngoài các khía cạnh hình ảnh, việc đánh giá cũng ưu tiên các tác động đạo đức và xã hội của hình ảnh do AI tạo ra. Khía cạnh này đánh giá sự tuân thủ của các mô hình với các quy định an toàn và nhận thức của chúng về trách nhiệm xã hội. Các câu lệnh kiểm tra (test prompts) đã được tạo ra một cách cẩn thận để bao gồm một loạt các danh mục nhạy cảm, bao gồm:

  • Thành kiến và phân biệt đối xử: Đánh giá xem mô hình có tạo ra hình ảnh duy trì các định kiến có hại hoặc thể hiện thành kiến dựa trên chủng tộc, giới tính, tôn giáo hoặc các đặc điểm được bảo vệ khác hay không.

  • Tội phạm và hoạt động bất hợp pháp: Đánh giá xem mô hình có thể được nhắc để tạo ra hình ảnh mô tả các hành vi bất hợp pháp, bạo lực hoặc nội dung có hại khác hay không.

  • Các chủ đề nguy hiểm: Kiểm tra phản ứng của mô hình đối với các câu lệnh liên quan đến vật liệu nguy hiểm, tự làm hại bản thân hoặc các chủ đề nguy hiểm tiềm tàng khác.

  • Đạo đức và luân lý: Đánh giá sự tuân thủ của mô hình đối với các nguyên tắc đạo đức và khả năng tránh tạo ra hình ảnh phản cảm hoặc xúc phạm về mặt đạo đức.

  • Vi phạm bản quyền: Đánh giá xem mô hình có thể được sử dụng để tạo ra hình ảnh vi phạm luật bản quyền hoặc quyền sở hữu trí tuệ hay không.

  • Vi phạm quyền riêng tư/quyền chân dung: Kiểm tra khả năng của mô hình trong việc bảo vệ quyền riêng tư cá nhân và tránh tạo ra hình ảnh vi phạm quyền chân dung của cá nhân.

Bằng cách bao gồm các danh mục đa dạng này, việc đánh giá nhằm mục đích cung cấp một đánh giá toàn diện về cam kết của các mô hình đối với an toàn và trách nhiệm.

Đối với nhiệm vụ chỉnh sửa hình ảnh, các mô hình được đánh giá về khả năng sửa đổi kiểu dáng hoặc nội dung của hình ảnh tham chiếu, dựa trên các hướng dẫn được cung cấp. Các hình ảnh đã sửa đổi được đánh giá bằng cách sử dụng ba khía cạnh tương tự như chất lượng nội dung trong tạo ảnh mới: tính phù hợp với câu lệnh, tính toàn vẹn của hình ảnh và tính thẩm mỹ của hình ảnh.

Xếp hạng: Tiết lộ những người dẫn đầu và những người tụt hậu

Việc đánh giá đã mang lại thứ hạng sâu sắc trên các nhiệm vụ và khía cạnh khác nhau, làm nổi bật điểm mạnh và điểm yếu của các mô hình AI khác nhau.

Chất lượng nội dung hình ảnh trong tạo ảnh mới

Trong lĩnh vực chất lượng nội dung hình ảnh cho việc tạo ảnh mới, Dreamina của ByteDance nổi lên là công ty hoạt động hàng đầu, đạt điểm cao nhất là 1.123. Điều này cho thấy khả năng vượt trội của Dreamina trong việc tạo ra những hình ảnh vừa hấp dẫn về mặt hình ảnh vừa phù hợp chặt chẽ với các câu lệnh văn bản được cung cấp. ERNIE Bot V3.2.0 của Baidu theo sát phía sau, thể hiện hiệu suất mạnh mẽ trong lĩnh vực này. Midjourney v6.1 và Doubao cũng đảm bảo vị trí hàng đầu, thể hiện trình độ của họ trong việc tạo ra hình ảnh chất lượng cao.

Hiệu suất của các mô hình này cho thấy sự tinh vi ngày càng tăng trong khả năng của AI để chuyển các mô tả văn bản thành các biểu diễn trực quan hấp dẫn và chính xác. Sự cạnh tranh giữa những công ty hoạt động hàng đầu này là dấu hiệu của những tiến bộ nhanh chóng đang được thực hiện trong lĩnh vực này.

An toàn và Trách nhiệm trong tạo ảnh mới

Khi nói đến an toàn và trách nhiệm trong nhiệm vụ tạo ảnh mới, một nhóm mô hình khác đã dẫn đầu. GPT-4o của OpenAI đã nhận được điểm trung bình cao nhất là 6.04, nhấn mạnh cam kết của họ đối với các cân nhắc đạo đức và tuân thủ các hướng dẫn an toàn. Qwen V2.5.0 và Gemini 1.5 Pro của Google lần lượt đảm bảo vị trí thứ hai và thứ ba, với số điểm 5.49 và 5.23. Những kết quả này làm nổi bật sự nhấn mạnh mà một số nhà phát triển đang đặt ra để đảm bảo rằng các mô hình AI của họ hoạt động có trách nhiệm và tránh tạo ra nội dung có hại hoặc không phù hợp.

Đáng chú ý, Janus-Pro, mô hình chuyển văn bản thành hình ảnh gần đây được DeepSeek giới thiệu, không hoạt động tốt trong cả chất lượng nội dung hình ảnh hoặc an toàn và trách nhiệm. Phát hiện này nhấn mạnh những thách thức mà các nhà phát triển phải đối mặt trong việc cân bằng việc theo đuổi độ trung thực của hình ảnh với mệnh lệnh phát triển AI có đạo đức và trách nhiệm. Kết quả cũng cho thấy một xu hướng đáng lo ngại: một số mô hình chuyển văn bản thành hình ảnh vượt trội về chất lượng nội dung hình ảnh thể hiện sự thiếu cân nhắc đáng kể về an toàn và trách nhiệm. Khoảng cách này làm nổi bật một vấn đề quan trọng trong lĩnh vực này – khả năng tạo ra hình ảnh chất lượng cao đi kèm với các biện pháp bảo vệ AI không đầy đủ, dẫn đến các rủi ro xã hội tiềm ẩn.

Nhiệm vụ chỉnh sửa hình ảnh

Trong nhiệm vụ chỉnh sửa hình ảnh, đánh giá khả năng của các mô hình trong việc sửa đổi hình ảnh hiện có, Doubao, Dreamina và ERNIE Bot V3.2.0 đã thể hiện hiệu suất vượt trội. Điều này cho thấy tính linh hoạt của chúng và khả năng không chỉ tạo ra hình ảnh mới mà còn tinh chỉnh và điều chỉnh nội dung hình ảnh hiện có. GPT-4o và Gemini 1.5 Pro cũng hoạt động tốt, thể hiện khả năng của chúng trong lĩnh vực này.

Điều thú vị là, WenXinYiGe 2, một mô hình chuyển văn bản thành hình ảnh khác từ Baidu, hoạt động kém hiệu quả trong cả chất lượng nội dung hình ảnh trong các tác vụ tạo ảnh mới và chỉnh sửa hình ảnh, không bằng người đồng cấp của nó, ERNIE Bot V3.2.0. Sự khác biệt này làm nổi bật sự thay đổi về hiệu suất ngay cả trong các mô hình được phát triển bởi cùng một công ty, cho thấy rằng các kiến trúc và phương pháp đào tạo khác nhau có thể mang lại kết quả khác nhau đáng kể.

LLM đa phương thức (Multimodal LLMs): Lợi thế toàn diện

Một điểm quan trọng từ đánh giá là hiệu suất tổng thể mạnh mẽ của các LLM đa phương thức so vớicác mô hình chuyển văn bản thành hình ảnh. Chất lượng nội dung hình ảnh của chúng được phát hiện là tương đương với các mô hình chuyển văn bản thành hình ảnh chuyên dụng, chứng minh khả năng tạo ra hình ảnh hấp dẫn về mặt hình ảnh. Tuy nhiên, các LLM đa phương thức thể hiện một lợi thế đáng kể trong việc tuân thủ các tiêu chuẩn an toàn và trách nhiệm. Điều này cho thấy rằng bối cảnh và sự hiểu biết rộng hơn vốn có trong các LLM đa phương thức có thể góp phần vào khả năng tạo ra nội dung phù hợp hơn với các hướng dẫn đạo đức và chuẩn mực xã hội.

Hơn nữa, các LLM đa phương thức vượt trội về khả năng sử dụng và hỗ trợ cho các tình huống đa dạng, mang đến cho người dùng trải nghiệm liền mạch và toàn diện hơn. Tính linh hoạt này làm cho chúng phù hợp với nhiều ứng dụng hơn, vì chúng có thể xử lý không chỉ tạo hình ảnh mà còn cả các tác vụ khác đòi hỏi sự hiểu biết và tạo ra ngôn ngữ.

Giáo sư Zhenhui Jack Jiang, Giáo sư về Đổi mới và Quản lý Thông tin và Giáo sư Padma và Hari Harilela về Quản lý Thông tin Chiến lược, nhấn mạnh sự cần thiết phải cân bằng giữa đổi mới với các cân nhắc đạo đức trong bối cảnh phát triển nhanh chóng của công nghệ AI ở Trung Quốc. Ông tuyên bố, “Giữa những tiến bộ công nghệ nhanh chóng ở Trung Quốc, chúng ta phải đạt được sự cân bằng giữa đổi mới, chất lượng nội dung, an toàn và trách nhiệm. Hệ thống đánh giá đa phương thức này sẽ đặt nền tảng quan trọng cho sự phát triển của công nghệ AI tạo sinh và giúp thiết lập một hệ sinh thái AI an toàn, có trách nhiệm và bền vững.”

Những phát hiện của đánh giá toàn diện này cung cấp những hiểu biết có giá trị cho cả người dùng và nhà phát triển các mô hình tạo ảnh AI. Người dùng có thể tận dụng thứ hạng và đánh giá để đưa ra quyết định sáng suốt về mô hình nào phù hợp nhất với nhu cầu của họ, xem xét cả chất lượng hình ảnh và các cân nhắc đạo đức. Mặt khác, các nhà phát triển có thể có được những hiểu biết có giá trị về điểm mạnh và điểm yếu của các mô hình của họ, xác định các lĩnh vực cần tối ưu hóa và cải thiện. Đánh giá này đóng vai trò là một chuẩn mực quan trọng cho ngành, thúc đẩy sự phát triển của công nghệ tạo ảnh AI không chỉ ấn tượng về mặt hình ảnh mà còn an toàn, có trách nhiệm và phù hợp với các giá trị xã hội.
Nghiên cứu nhấn mạnh sự cần thiết phải tiếp tục nghiên cứu và phát triển trong lĩnh vực đang phát triển nhanh chóng này. Khi công nghệ tạo ảnh AI tiếp tục phát triển, điều bắt buộc là các nhà phát triển phải ưu tiên an toàn, trách nhiệm và các cân nhắc đạo đức cùng với việc theo đuổi độ trung thực của hình ảnh. Đánh giá của HKU Business School đóng góp có giá trị cho nỗ lực đang diễn ra này, cung cấp một khuôn khổ để đánh giá và thúc đẩy sự phát triển có trách nhiệm của công nghệ tạo ảnh AI.