Khung vẽ mới của GPT-4o: Đan hình ảnh vào hội thoại

OpenAI đã thay đổi cơ bản cục diện của AI đàm thoại hàng đầu của mình, GPT-4o, bằng cách nhúng trực tiếp khả năng tạo hình ảnh tinh vi vào cốt lõi của nó. Đây không chỉ đơn thuần là một tiện ích bổ sung hay liên kết đến một dịch vụ riêng biệt; nó đại diện cho một sự thay đổi mô hình, nơi việc tạo ra hình ảnh trở thành một phần nội tại của cuộc đối thoại. Trước đây, người dùng tương tác với ChatGPT muốn có hình ảnh sẽ được chuyển hướng, thường là một cách minh bạch nhưng đôi khi yêu cầu các bước riêng biệt, đến mô hình DALL·E. Quá trình đó, mặc dù hiệu quả, vẫn duy trì sự tách biệt giữa khả năng hiểu ngôn ngữ của mô hình chính và khả năng tổng hợp hình ảnh của trình tạo ảnh. Giờ đây, bức tường đó đã sụp đổ. Chính GPT-4o sở hữu khả năng bẩm sinh để hiểu yêu cầu văn bản của người dùng và chuyển nó thành pixel, tất cả đều nằm trong luồng liên tục của một phiên trò chuyện duy nhất. Chức năng tích hợp này bắt đầu được triển khai cho người dùng trên mọi cấp độ – từ những người sử dụng gói miễn phí của ChatGPT đến những người đăng ký gói Plus, Pro và Team, cũng như trong giao diện Sora. Công ty dự kiến sẽ mở rộng khả năng này cho các khách hàng Enterprise, người dùng giáo dục và nhà phát triển thông qua API trong tương lai gần, báo hiệu một cam kết rộng rãi đối với cách tiếp cận thống nhất này.

Sự kết hợp liền mạch giữa Văn bản và Pixel

Sự đổi mới thực sự nằm ở sự tích hợp. Hãy tưởng tượng bạn đang trò chuyện với một trợ lý AI về một khái niệm – có lẽ là động não ý tưởng cho logo sản phẩm mới hoặc hình dung một cảnh trong câu chuyện bạn đang viết. Thay vì mô tả hình ảnh bạn muốn rồi chuyển sang một công cụ hoặc cấu trúc lệnh khác để tạo ra nó, bạn chỉ cần tiếp tục cuộc trò chuyện. Bạn có thể hỏi trực tiếp GPT-4o: “Minh họa khái niệm đó” hoặc “Cho tôi xem cảnh đó có thể trông như thế nào.” AI, tận dụng cùng một sự hiểu biết ngữ cảnh mà nó sử dụng để xử lý và tạo văn bản, giờ đây áp dụng sự hiểu biết đó để tạo ra một hình ảnh.

Kiến trúc mô hình thống nhất này loại bỏ sự phiền phức của việc chuyển đổi ngữ cảnh. AI không cần phải được tóm tắt lại trong một mô-đun tạo ảnh riêng biệt; nó vốn đã hiểu cuộc đối thoại trước đó, các tùy chọn bạn đã nêu và bất kỳ sắc thái nào đã thảo luận trước đó trong cuộc trò chuyện. Điều này dẫn đến một vòng lặp tinh chỉnh lặp đi lặp lại mạnh mẽ. Hãy xem xét những khả năng này:

  • Tạo ban đầu: Bạn yêu cầu “một hình ảnh chân thực về một chú chó Golden Retriever đang bắt đĩa frisbee trên bãi biển đầy nắng.” GPT-4o tạo ra hình ảnh ngay trong cuộc trò chuyện.
  • Tinh chỉnh: Bạn nhìn vào hình ảnh và trả lời, “Tuyệt vời, nhưng bạn có thể làm cho bầu trời trông giống như cuối buổi chiều hơn và thêm một chiếc thuyền buồm ở phía xa không?”
  • Điều chỉnh theo ngữ cảnh: Vì đó là cùng một mô hình, GPT-4o hiểu “tuyệt vời” đề cập đến hình ảnh mà nó vừa tạo. Nó nắm bắt được “làm cho bầu trời trông giống như cuối buổi chiều hơn” và “thêm một chiếc thuyền buồm” là những sửa đổi cho cảnh hiện có, chứ không phải là yêu cầu hoàn toàn mới. Sau đó, nó tạo ra một phiên bản cập nhật, bảo tồn các yếu tố cốt lõi (chó, đĩa frisbee, bãi biển) trong khi kết hợp các thay đổi.

Quá trình tinh chỉnh mang tính đối thoại này tạo cảm giác ít giống như vận hành phần mềm hơn mà giống như cộng tác với một đối tác thiết kế nhớ những gì bạn đã thảo luận. Bạn không cần phải loay hoay với các thanh trượt phức tạp, nhập các lời nhắc phủ định riêng biệt hoặc bắt đầu lại từ đầu nếu lần thử đầu tiên không hoàn toàn đúng. Bạn chỉ cần tiếp tục đối thoại, hướng dẫn AI hướng tới kết quả hình ảnh mong muốn một cách tự nhiên. Tương tác linh hoạt này có khả năng hạ thấp đáng kể rào cản gia nhập đối với việc tạo hình ảnh và biến nó thành một phần mở rộng trực quan hơn của tư duy và giao tiếp. Mô hình hoạt động như một cộng tác viên hình ảnh, xây dựng dựa trên các hướng dẫn trước đó và duy trì tính nhất quán qua các lần lặp lại, giống như cách một nhà thiết kế con người phác thảo, nhận phản hồi và sửa đổi.

Bên trong: Đào tạo cho sự thành thạo về hình ảnh

OpenAI cho rằng khả năng nâng cao này là nhờ một phương pháp đào tạo tinh vi. Mô hình không chỉ được đào tạo riêng về văn bản hay riêng về hình ảnh; thay vào đó, nó học từ cái mà công ty mô tả là phân phối kết hợp của hình ảnh và văn bản. Điều này có nghĩa là AI đã được tiếp xúc với các bộ dữ liệu khổng lồ nơi các mô tả văn bản được liên kết phức tạp với các hình ảnh tương ứng. Thông qua quá trình này, nó không chỉ học các mẫu thống kê của ngôn ngữ và các đặc điểm hình ảnh của các đối tượng, mà quan trọng hơn, nó đã học được các mối quan hệ phức tạp giữa từ ngữ và hình ảnh.

Sự tích hợp sâu sắc này trong quá trình đào tạo mang lại những lợi ích hữu hình:

  1. Hiểu lời nhắc nâng cao: Mô hình có thể phân tích và diễn giải các lời nhắc phức tạp hơn đáng kể so với các phiên bản tiền nhiệm. Trong khi các mô hình tạo ảnh trước đó có thể gặp khó khăn hoặc bỏ qua các yếu tố khi đối mặt với các yêu cầu liên quan đến nhiều đối tượng và các mối quan hệ không gian hoặc khái niệm cụ thể, GPT-4o được cho là xử lý các lời nhắc chi tiết lên đến 20 yếu tố riêng biệt với độ trung thực cao hơn. Hãy tưởng tượng yêu cầu “một cảnh chợ trung cổ nhộn nhịp với một người bán bánh mì, hai hiệp sĩ đang tranh cãi gần đài phun nước, một thương gia trưng bày lụa đầy màu sắc, trẻ em đuổi theo một con chó và một lâu đài có thể nhìn thấy trên ngọn đồi ở hậu cảnh dưới bầu trời nhiều mây.” Một mô hình được đào tạo trên các phân phối kết hợp được trang bị tốt hơn để hiểu và cố gắng hiển thị từng thành phần được chỉ định và các tương tác ngụ ý của chúng.
  2. Nắm bắt khái niệm tốt hơn: Ngoài việc chỉ nhận dạng các đối tượng, mô hình còn thể hiện khả năng nắm bắt tốt hơn các khái niệm trừu tượng và hướng dẫn về phong cách được nhúng trong lời nhắc. Nó có thể dịch tốt hơn các sắc thái về tâm trạng, phong cách nghệ thuật (ví dụ: “theo phong cách Van Gogh,” “như một bản vẽ đường nét tối giản”) và các yêu cầu bố cục cụ thể.
  3. Độ chính xác hiển thị văn bản: Một trở ngại phổ biến đối với các trình tạo ảnh AI là hiển thị chính xác văn bản trong hình ảnh. Cho dù đó là biển hiệu trên tòa nhà, văn bản trên áo phông hay nhãn trên sơ đồ, các mô hình thường tạo ra các ký tự bị cắt xén hoặc vô nghĩa. OpenAI nhấn mạnh rằng GPT-4o cho thấy sự cải thiện rõ rệt trong lĩnh vực này, có khả năng tạo ra văn bản dễ đọc và phù hợp với ngữ cảnh trong các hình ảnh mà nó tạo ra. Điều này mở ra khả năng tạo các bản mô phỏng (mockup), sơ đồ và hình minh họa nơi văn bản nhúng là rất quan trọng.

Chế độ đào tạo tiên tiến này, kết hợp các luồng dữ liệu ngôn ngữ và hình ảnh từ đầu, cho phép GPT-4o thu hẹp khoảng cách giữa ý định văn bản và thực thi hình ảnh hiệu quả hơn so với các hệ thống nơi các phương thức này được đào tạo riêng biệt và sau đó ghép lại với nhau. Kết quả là một AI không chỉ tạo ra hình ảnh mà còn hiểu yêu cầu đằng sau chúng ở mức độ cơ bản hơn.

Tính thực tiễn vượt ra ngoài những bức ảnh đẹp

Mặc dù các ứng dụng sáng tạo là rõ ràng ngay lập tức – tạo ra tác phẩm nghệ thuật, hình minh họa và hình ảnh khái niệm – OpenAI nhấn mạnh tính hữu dụng thực tế của khả năng tạo ảnh tích hợp của GPT-4o. Mục tiêu vượt ra ngoài sự mới lạ đơn thuần hoặc biểu hiện nghệ thuật; nó nhằm mục đích nhúng việc tạo hình ảnh như một công cụ chức năng trong các quy trình công việc khác nhau.

Hãy xem xét phạm vi rộng lớn của các ứng dụng tiềm năng:

  • Sơ đồ và Lưu đồ: Cần giải thích một quy trình phức tạp? Yêu cầu GPT-4o “tạo một lưu đồ đơn giản minh họa các bước quang hợp” hoặc “tạo một sơ đồ hiển thị các thành phần của bo mạch chủ máy tính.” Khả năng hiển thị văn bản được cải thiện có thể đặc biệt có giá trị ở đây cho các nhãn và chú thích.
  • Công cụ hỗ trợ giáo dục: Giáo viên và học sinh có thể hình dung các sự kiện lịch sử, khái niệm khoa học hoặc cảnh văn học một cách nhanh chóng. “Cho tôi xem hình ảnh mô tả việc ký Tuyên ngôn Độc lập” hoặc “Minh họa chu trình nước.”
  • Kinh doanh và Tiếp thị: Tạo nhanh các bản mô phỏng cho bố cục trang web, ý tưởng bao bì sản phẩm hoặc bài đăng trên mạng xã hội. Tạo các hình minh họa đơn giản cho bài thuyết trình hoặc tài liệu nội bộ. Hình dung các khái niệm dữ liệu trước khi sử dụng phần mềm biểu đồ phức tạp. Hãy tưởng tượng yêu cầu, “Tạo một thiết kế thực đơn cho một nhà hàng Ý hiện đại, có các món mì ống và rượu vang kết hợp, với thẩm mỹ sạch sẽ, thanh lịch.”
  • Thiết kế và Phát triển: Tạo các tài sản thiết kế ban đầu, có lẽ yêu cầu các biểu tượng hoặc các yếu tố giao diện đơn giản. Khả năng yêu cầu tài sản có nền trong suốt trực tiếp là một lợi ích đáng kể cho các nhà thiết kế cần các yếu tố có thể dễ dàng xếp lớp lên các dự án khác mà không cần xóa nền thủ công.
  • Sử dụng cá nhân: Tạo thiệp chúc mừng tùy chỉnh, hình dung ý tưởng cải tạo nhà (“Cho tôi xem phòng khách của tôi được sơn màu xanh lá cây xô thơm”), hoặc tạo hình ảnh độc đáo cho các dự án cá nhân.

Sức mạnh nằm ở sự hiểu biết kết hợp của mô hình về ngôn ngữ và cấu trúc hình ảnh. Nó có thể diễn giải không chỉ cái gì cần vẽ, mà còn cách thức nó nên được trình bày – xem xét bố cục, phong cách và các yêu cầu chức năng ngụ ý trong lời nhắc. OpenAI lưu ý rằng các kỹ thuật sau đào tạo đã được sử dụng đặc biệt để nâng cao độ chính xác và tính nhất quán của mô hình, đảm bảo hình ảnh được tạo ra phù hợp hơn với ý định cụ thể của người dùng, cho dù ý định đó là nghệ thuật hay hoàn toàn là chức năng. Sự tập trung vào tính thực tiễn này định vị tính năng tạo ảnh không chỉ như một món đồ chơi, mà còn là một công cụ linh hoạt được tích hợp vào một nền tảng mà nhiều người đã sử dụng để truy xuất thông tin và tạo văn bản.

Giải quyết các rủi ro cố hữu: An toàn và Trách nhiệm

Việc giới thiệu các khả năng tạo sinh mạnh mẽ chắc chắn làm dấy lên lo ngại về khả năng lạm dụng. OpenAI khẳng định rằng an toàn là mối quan tâm hàng đầu trong việc phát triển và triển khai các tính năng tạo ảnh của GPT-4o. Nhận thức được những rủi ro liên quan đến hình ảnh do AI tạo ra, công ty đã triển khai một số lớp bảo vệ:

  • Theo dõi nguồn gốc: Tất cả hình ảnh do mô hình tạo ra đều được nhúng siêu dữ liệu tuân thủ tiêu chuẩn C2PA (Coalition for Content Provenance and Authenticity). Dấu bản quyền kỹ thuật số này đóng vai trò là chỉ báo cho thấy hình ảnh được tạo bởi AI, giúp phân biệt phương tiện tổng hợp với ảnh chụp thế giới thực hoặc nghệ thuật do con người tạo ra. Đây là một bước quan trọng trong việc chống lại thông tin sai lệch tiềm ẩn hoặc các mục đích sử dụng lừa đảo.
  • Kiểm duyệt nội dung: OpenAI sử dụng các công cụ nội bộ và hệ thống kiểm duyệt tinh vi được thiết kế để tự động phát hiện và chặn các nỗ lực tạo ra nội dung có hại hoặc không phù hợp. Điều này bao gồm việc thực thi các hạn chế nghiêm ngặt đối với việc tạo ra:
    • Nội dung tình dục không có sự đồng thuận (NCII): Bao gồm hình ảnh khỏa thân rõ ràng và hình ảnh đồ họa.
    • Nội dung căm thù hoặc quấy rối: Hình ảnh nhằm mục đích hạ thấp, phân biệt đối xử hoặc tấn công các cá nhân hoặc nhóm.
    • Hình ảnh quảng bá các hành vi bất hợp pháp hoặc bạo lực cực đoan.
  • Bảo vệ cá nhân thực: Các biện pháp bảo vệ cụ thể được áp dụng để ngăn chặn việc tạo ra các hình ảnh chân thực mô tả người thật, đặc biệt là các nhân vật của công chúng, mà không có sự đồng ý. Điều này nhằm giảm thiểu rủi ro liên quan đến deepfake và tổn hại danh tiếng. Mặc dù việc tạo hình ảnh của các nhân vật của công chúng có thể bị hạn chế, nhưng việc yêu cầu hình ảnh theo phong cách của một nghệ sĩ nổi tiếng thường được cho phép.
  • Đánh giá sự tuân thủ nội bộ: Ngoài việc chặn phản ứng, OpenAI sử dụng một mô hình lý luận nội bộ để chủ động đánh giá sự tuân thủ của hệ thống tạo ảnh với các nguyên tắc an toàn. Điều này liên quan đến việc tham chiếu các thông số kỹ thuật an toàn do con người viết và đánh giá xem các kết quả đầu ra và hành vi từ chối của mô hình có tuân thủ các quy tắc đã được thiết lập này hay không. Điều này đại diện cho một cách tiếp cận chủ động, tinh vi hơn để đảm bảo mô hình hoạt động có trách nhiệm.

Các biện pháp này phản ánh nỗ lực không ngừng trong ngành AI nhằm cân bằng giữa đổi mới và các cân nhắc về đạo đức. Mặc dù không có hệ thống nào là hoàn hảo, sự kết hợp giữa đánh dấu nguồn gốc, lọc nội dung, các hạn chế cụ thể và kiểm tra sự tuân thủ nội bộ thể hiện cam kết triển khai công nghệ mạnh mẽ này theo cách giảm thiểu tác hại tiềm ẩn. Hiệu quả và sự tinh chỉnh liên tục của các giao thức an toàn này sẽ rất quan trọng khi việc tạo ảnh AI trở nên dễ tiếp cận hơn và được tích hợp vào các công cụ hàng ngày.

Hiệu suất, Triển khai và Quyền truy cập của Nhà phát triển

Độ trung thực nâng cao và khả năng hiểu ngữ cảnh của việc tạo ảnh của GPT-4o đi kèm với một sự đánh đổi: tốc độ. Việc tạo ra những hình ảnh phức tạp hơn này thường mất nhiều thời gian hơn so với việc tạo phản hồi văn bản, đôi khi yêu cầu lên đến một phút tùy thuộc vào độ phức tạp của yêu cầu và tải hệ thống. Đây là hệ quả của tài nguyên tính toán cần thiết để tổng hợp hình ảnh chất lượng cao phản ánh chính xác các lời nhắc chi tiết và ngữ cảnh hội thoại. Người dùng có thể cần phải kiên nhẫn ở một mức độ nào đó, hiểu rằng phần thưởng cho sự chờ đợi là khả năng kiểm soát tốt hơn, tuân thủ hướng dẫn được cải thiện và chất lượng hình ảnh tổng thể cao hơn so với các mô hình nhanh hơn, ít nhận biết ngữ cảnh hơn.

Việc triển khai tính năng này đang được quản lý theo từng giai đoạn:

  1. Truy cập ban đầu: Có sẵn ngay lập tức trong ChatGPT (trên các gói Free, Plus, Pro và Team) và giao diện Sora. Điều này cung cấp cho một lượng lớn người dùng cơ hội trải nghiệm trực tiếp việc tạo ảnh tích hợp.
  2. Mở rộng sắp tới: Quyền truy cập cho khách hàng Enterprise và Education được lên kế hoạch trong tương lai gần, cho phép các tổ chức và cơ sở giáo dục tận dụng khả năng này trong môi trường cụ thể của họ.
  3. Quyền truy cập của Nhà phát triển: Quan trọng là, OpenAI có kế hoạch cung cấp khả năng tạo ảnh của GPT-4o thông qua API của mình trong những tuần tới. Điều này sẽ trao quyền cho các nhà phát triển tích hợp chức năng này trực tiếp vào các ứng dụng và dịch vụ của riêng họ, có khả năng dẫn đến một làn sóng các công cụ và quy trình công việc mới được xây dựng dựa trên mô hình tạo ảnh đàm thoại này.

Đối với những người dùng thích quy trình làm việc trước đó hoặc có lẽ là các đặc điểm cụ thể của mô hình DALL·E, OpenAI đang duy trì DALL·E GPT chuyên dụng trong GPT Store. Điều này đảm bảo quyền truy cập liên tục vào giao diện và biến thể mô hình đó, cung cấp cho người dùng sự lựa chọn dựa trên sở thích và nhu cầu cụ thể của họ.

Tìm vị trí trong Hệ sinh thái AI Hình ảnh

Điều quan trọng là phải đặt khả năng mới của GPT-4o vào bối cảnh rộng lớn hơn của việc tạo ảnh AI. Các công cụ chuyên dụng cao như Midjourney nổi tiếng với sự tinh tế nghệ thuật và khả năng tạo ra những hình ảnh tuyệt đẹp, thường là siêu thực, mặc dù thông qua một giao diện khác (chủ yếu là các lệnh Discord). Stable Diffusion cung cấp sự linh hoạt và tùy chỉnh lớn, đặc biệt đối với những người dùng sẵn sàng tìm hiểu sâu về các thông số kỹ thuật và các biến thể mô hình. Adobe đã tích hợp sâu mô hình Firefly của mình vào Photoshop và các ứng dụng Creative Cloud khác, tập trung vào quy trình thiết kế chuyên nghiệp.

Khả năng tạo ảnh của GPT-4o, ít nhất là ban đầu, không nhất thiết nhằm mục đích vượt qua các công cụ chuyên dụng này về mọi mặt, chẳng hạn như chất lượng đầu ra nghệ thuật thô hoặc độ sâu của các tùy chọn tinh chỉnh. Lợi thế chiến lược của nó nằm ở chỗ khác: sự tiện lợi và tích hợp đàm thoại.

Đề xuất giá trị chính là mang khả năng tạo ảnh trực tiếp vào môi trường nơi hàng triệu người đã tương tác với AI cho các tác vụ dựa trên văn bản. Nó loại bỏ nhu cầu chuyển đổi ngữ cảnh hoặc học một giao diện mới. Đối với nhiều người dùng, khả năng nhanh chóng hình dung một ý tưởng, tạo một sơ đồ chức năng hoặc tạo một hình minh họa khá ngay trong cuộc trò chuyện ChatGPT hiện có của họ sẽ có giá trị hơn nhiều so với việc đạt được đỉnh cao tuyệt đối về chất lượng nghệ thuật trong một ứng dụng riêng biệt.

Cách tiếp cận này dân chủ hóa việc tạo ảnh hơn nữa. Người dùng có thể bị đe dọa bởi các lời nhắc phức tạp hoặc các nền tảng tạo ảnh chuyên dụng giờ đây có thể thử nghiệm tổng hợp hình ảnh bằng ngôn ngữ tự nhiên trong một môi trường quen thuộc. Nó biến việc tạo ảnh từ một nhiệm vụ riêng biệt thành một phần mở rộng linh hoạt của giao tiếp và động não. Mặc dù các nghệ sĩ và nhà thiết kế chuyên nghiệp có thể sẽ tiếp tục dựa vào các công cụ chuyên dụng cho công việc có yêu cầu cao, tính năng tích hợp của GPT-4o có thể trở thành lựa chọn hàng đầu cho việc hình dung nhanh, bản nháp ý tưởng và nhu cầu hình ảnh hàng ngày cho một đối tượng rộng lớn hơn nhiều. Nó đại diện cho một bước tiến quan trọng hướng tới các trợ lý AI không chỉ có thể hiểu và diễn đạt ý tưởng mà còn giúp chúng ta nhìn thấy chúng.