OpenAI xem xét dấu hiệu hình ảnh cho ảnh từ ChatGPT-4o

Bối cảnh trí tuệ nhân tạo đang phát triển nhanh chóng thường mang đến những bước ngoặt thú vị, và OpenAI, một công ty nổi bật trong lĩnh vực này, dường như đang cân nhắc một điều chỉnh đáng kể về cách trình bày hình ảnh do mô hình mới nhất của họ, ChatGPT-4o, tạo ra cho người dùng. Đã có những báo cáo cho thấy công ty đang tích cực thử nghiệm việc triển khai một dạng ‘watermark’ (hình mờ) đặc biệt cho các hình ảnh được tạo bằng tầng dịch vụ miễn phí của họ. Động thái tiềm năng này, dù có vẻ tinh tế bề ngoài, lại mang những hàm ý đáng chú ý đối với người dùng, chiến lược kinh doanh của công ty và cuộc thảo luận rộng hơn xung quanh nội dung do AI tạo ra.

Thời điểm của việc thăm dò này đặc biệt thú vị. Nó trùng hợp với sự bùng nổ sáng tạo của người dùng, đặc biệt là việc tận dụng khả năng ấn tượng của mô hình trong việc bắt chước các phong cách nghệ thuật riêng biệt. Một ví dụ đáng chú ý thường được trích dẫn là việc tạo ra các tác phẩm nghệ thuật gợi nhớ đến Studio Ghibli, hãng phim hoạt hình nổi tiếng của Nhật Bản. Mặc dù trường hợp sử dụng cụ thể này có thể đang thu hút sự chú ý, khả năng cơ bản của mô hình Tạo ảnh, thường được gọi là ImageGen trong khuôn khổ ChatGPT-4o, vượt xa việc mô phỏng một thẩm mỹ duy nhất. Sự thành thạo của nó đánh dấu đây là một trong những hệ thống đa phương thức tinh vi nhất mà OpenAI đã phát hành công khai.

Thật vậy, sự chú ý xung quanh ChatGPT gần đây đã được khuếch đại đáng kể bởi sức mạnh của trình tạo ảnh tích hợp của nó. Điều này không chỉ đơn thuần là tạo ra những bức ảnh đẹp mắt; mô hình còn thể hiện khả năng đáng nể trong việc tích hợp văn bản một cách chính xác vào hình ảnh – một rào cản đã thách thức nhiều hệ thống chuyển văn bản thành hình ảnh trước đây. Hơn nữa, khả năng tạo ra các hình ảnh từ mô tả chân thực đến các sáng tạo mang tính cách điệu cao, như nghệ thuật kiểu Ghibli đã đề cập, cho thấy sự linh hoạt và sức mạnh của nó. Khả năng này, từng là đặc quyền dành riêng cho những người đăng ký ChatGPT Plus, gần đây đã được dân chủ hóa, trở nên dễ tiếp cận với tất cả người dùng, bao gồm cả những người sử dụng nền tảng miễn phí. Sự mở rộng này chắc chắn đã làm tăng cơ sở người dùng và do đó, cả khối lượng hình ảnh được tạo ra.

Việc giới thiệu watermark tiềm năng dường như liên quan trực tiếp đến việc mở rộng quyền truy cập này. Các quan sát của nhà nghiên cứu AI Tibor Blaho, được xác nhận bởi các nguồn độc lập quen thuộc với thử nghiệm nội bộ của OpenAI, chỉ ra rằng các thử nghiệm đang được tiến hành để nhúng một mã định danh riêng biệt, có thể là watermark nhìn thấy được hoặc ẩn (steganographic), vào các hình ảnh được tạo bởi tài khoản miễn phí. Luận điểm đối lập hợp lý, được gợi ý bởi các báo cáo này, là những người dùng đăng ký dịch vụ cao cấp ChatGPT Plus có khả năng sẽ giữ được quyền tạo và lưu hình ảnh mà không có dấu hiệu này. Tuy nhiên, điều quan trọng là phải tiếp cận thông tin này một cách thận trọng. OpenAI, giống như nhiều công ty công nghệ hoạt động đi đầu trong đổi mới, duy trì các lộ trình phát triển linh hoạt. Các kế hoạch hiện đang được xem xét luôn có thể bị sửa đổi hoặc hủy bỏ dựa trên đánh giá nội bộ, tính khả thi về kỹ thuật, phản hồi của người dùng và việc sắp xếp lại ưu tiên chiến lược. Do đó, việc triển khai watermark vẫn là một khả năng chứ không phải là điều chắc chắn ở giai đoạn này.

Giải mã sức mạnh của ImageGen

Để đánh giá đầy đủ bối cảnh xung quanh việc có thể áp dụng watermark, người ta phải hiểu các khả năng làm cho mô hình ImageGen của ChatGPT-4o trở nên hấp dẫn. Chính OpenAI đã làm sáng tỏ phần nào nền tảng của công nghệ này. Trong các thông báo trước đây, công ty nhấn mạnh rằng sự thành thạo của mô hình bắt nguồn từ việc đào tạo sâu rộng trên các bộ dữ liệu khổng lồ bao gồm các cặp hình ảnh và mô tả văn bản được lấy từ internet. Chế độ đào tạo nghiêm ngặt này cho phép mô hình học được các mối quan hệ phức tạp, không chỉ giữa từ ngữ và hình ảnh, mà còn cả các mối tương quan hình ảnh phức tạp giữa các hình ảnh khác nhau.

OpenAI đã giải thích thêm về điều này, nói rằng, “Chúng tôi đã đào tạo các mô hình của mình trên sự phân phối chung của hình ảnh và văn bản trực tuyến, không chỉ học cách hình ảnh liên quan đến ngôn ngữ, mà còn cách chúng liên quan đến nhau.” Sự hiểu biết sâu sắc này được tinh chỉnh thêm thông qua cái mà công ty mô tả là “hậu đào tạo tích cực”. Kết quả là một mô hình thể hiện cái mà OpenAI gọi là “sự trôi chảy hình ảnh đáng ngạc nhiên”. Sự trôi chảy này chuyển thành việc tạo ra các hình ảnh không chỉ hấp dẫn về mặt hình ảnh mà còn hữu ích, nhất quán với lời nhắc và nhận thức sâu sắc về ngữ cảnh. Những thuộc tính này nâng nó vượt lên trên một sự mới lạ đơn giản, định vị nó như một công cụ tiềm năng mạnh mẽ cho biểu đạt sáng tạo, khái niệm hóa thiết kế và giao tiếp hình ảnh. Ví dụ, khả năng hiển thị văn bản chính xác trong các cảnh được tạo ra mở ra cơ hội tạo các hình minh họa tùy chỉnh, đồ họa mạng xã hội hoặc thậm chí các bản mô phỏng quảng cáo sơ bộ trực tiếp thông qua các lời nhắc đàm thoại.

Khả năng của mô hình mở rộng đến việc hiểu các hướng dẫn tinh tế liên quan đến bố cục, phong cách và chủ đề. Người dùng có thể yêu cầu hình ảnh có các đối tượng cụ thể được sắp xếp theo những cách đặc biệt, được thể hiện theo phong cách của các trường phái nghệ thuật khác nhau hoặc các nghệ sĩ cá nhân (trong giới hạn đạo đức và bản quyền), và mô tả các cảnh phức tạp với nhiều yếu tố tương tác. Mức độ kiểm soát và độ trung thực này là điều phân biệt các mô hình tiên tiến như ImageGen và thúc đẩy sự phổ biến ngày càng tăng của chúng.

Khám phá lý do: Tại sao lại giới thiệu Watermark?

Việc OpenAI khám phá việc áp dụng watermark làm dấy lên những suy đoán về động cơ cơ bản. Mặc dù sự phổ biến của các phong cách cụ thể như của Studio Ghibli có thể là một triệu chứng rõ ràng, nhưng đó có lẽ chỉ là một khía cạnh của một cân nhắc chiến lược rộng lớn hơn. Một số yếu tố tiềm năng có thể đang thúc đẩy sáng kiến này:

  1. Phân biệt các tầng dịch vụ: Có lẽ lý do kinh doanh đơn giản nhất là tạo ra một đề xuất giá trị rõ ràng hơn cho gói đăng ký trả phí ChatGPT Plus. Bằng cách cung cấp hình ảnh không có watermark như một lợi ích cao cấp, OpenAI củng cố động lực nâng cấp cho những người dùng phụ thuộc nhiều vào việc tạo ảnh, đặc biệt là cho các mục đích chuyên nghiệp hoặc công khai. Điều này phù hợp với các chiến lược mô hình freemium tiêu chuẩn phổ biến trong ngành công nghiệp phần mềm.
  2. Nguồn gốc và Ghi công Nội dung: Trong một kỷ nguyên đang vật lộn với những tác động của nội dung do AI tạo ra, việc xác định nguồn gốc ngày càng trở nên quan trọng. Watermark, dù nhìn thấy được hay ẩn (steganographic), có thể đóng vai trò như một cơ chế để xác định hình ảnh bắt nguồn từ mô hình AI. Điều này có thể rất quan trọng đối với tính minh bạch, giúp người xem phân biệt giữa hình ảnh do con người tạo ra và do AI tạo ra, điều này liên quan đến các cuộc thảo luận xung quanh deepfakes, thông tin sai lệch và tính xác thực nghệ thuật.
  3. Quản lý tiêu thụ tài nguyên: Cung cấp miễn phí các mô hình AI mạnh mẽ như ImageGen gây ra chi phí tính toán đáng kể. Việc tạo ra hình ảnh chất lượng cao đòi hỏi nhiều tài nguyên. Việc đánh dấu watermark vào các kết quả đầu ra miễn phí có thể làm giảm nhẹ việc sử dụng với khối lượng lớn, có khả năng phù phiếm, hoặc nó có thể là một phần của chiến lược rộng lớn hơn để quản lý tải hoạt động liên quan đến việc phục vụ một lượng lớn người dùng miễn phí. Mặc dù có thể không phải là động lực chính, quản lý tài nguyên là một mối quan tâm liên tục đối với bất kỳ nhà cung cấp dịch vụ AI quy mô lớn nào.
  4. Cân nhắc về Sở hữu Trí tuệ: Khả năng của các mô hình AI trong việc bắt chước các phong cách nghệ thuật cụ thể đặt ra những câu hỏi phức tạp về bản quyền và sở hữu trí tuệ. Mặc dù OpenAI đào tạo các mô hình của mình trên các bộ dữ liệu khổng lồ, kết quả đầu ra đôi khi có thể giống hệt tác phẩm của các nghệ sĩ hoặc thương hiệu đã biết. Watermark có thể được khám phá như một biện pháp sơ bộ, một tín hiệu về nguồn gốc của hình ảnh, có khả năng giảm thiểu các vấn đề phát sinh liên quan đến khiếu nại bản quyền, mặc dù nó không giải quyết được các cuộc tranh luận pháp lý và đạo đức cốt lõi xung quanh việc bắt chước phong cách. Ví dụ về Studio Ghibli làm nổi bật sự nhạy cảm này.
  5. Thúc đẩy Sử dụng Có trách nhiệm: Khi việc tạo ảnh bằng AI trở nên dễ tiếp cận và có khả năng hơn, tiềm năng lạm dụng cũng tăng lên. Watermark có thể hoạt động như một thành phần của khuôn khổ AI có trách nhiệm, làm cho việc giả mạo hình ảnh do AI tạo ra thành ảnh chụp hoặc tác phẩm nghệ thuật của con người trong các bối cảnh nhạy cảm trở nên khó khăn hơn một chút. Điều này phù hợp với các nỗ lực rộng lớn hơn của ngành nhằm phát triển các tiêu chuẩn về an toàn và đạo đức AI.

Có khả năng việc ra quyết định của OpenAI liên quan đến sự kết hợp của các yếu tố này. Công ty phải cân bằng giữa việc thúc đẩy áp dụng rộng rãi và đổi mới với việc duy trì một mô hình kinh doanh bền vững, điều hướng các địa hình đạo đức phức tạp và quản lý các yêu cầu kỹ thuật của nền tảng của mình.

Nền tảng công nghệ: Học hỏi từ Hình ảnh và Văn bản

Khả năng đáng nể của các mô hình như ImageGen không phải là ngẫu nhiên; chúng là kết quả của các kỹ thuật học máy tinh vi được áp dụng cho các bộ dữ liệu khổng lồ. Như OpenAI đã lưu ý, quá trình đào tạo bao gồm việc học “sự phân phối chung của hình ảnh và văn bản trực tuyến”. Điều này có nghĩa là AI không chỉ học cách liên kết từ “mèo” với hình ảnh của mèo. Nó học các kết nối ngữ nghĩa sâu sắc hơn: mối quan hệ giữa các giống mèo khác nhau, các hành vi điển hình của mèo được mô tả trong hình ảnh, bối cảnh mà mèo xuất hiện, kết cấu của lông, cách ánh sáng tương tác với mắt chúng và cách các yếu tố hình ảnh này được mô tả trong văn bản đi kèm.

Hơn nữa, việc học cách hình ảnh “liên quan đến nhau” ngụ ý rằng mô hình nắm bắt được các khái niệm về phong cách, bố cục và sự tương đồng về hình ảnh. Nó có thể hiểu các lời nhắc yêu cầu một hình ảnh “theo phong cách của Van Gogh” bởi vì nó đã xử lý vô số hình ảnh được gắn nhãn như vậy, cùng với các hình ảnh không theo phong cách đó, học cách xác định các nét cọ đặc trưng, bảng màu và chủ đề liên quan đến nghệ sĩ.

“Hậu đào tạo tích cực” mà OpenAI đề cập có khả năng liên quan đến các kỹ thuật như Học tăng cường từ Phản hồi của Con người (RLHF), nơi những người đánh giá là con người xếp hạng chất lượng và mức độ liên quan của kết quả đầu ra của mô hình, giúp tinh chỉnh hiệu suất của nó, điều chỉnh nó chặt chẽ hơn với ý định của người dùng và cải thiện sự an toàn bằng cách giảm khả năng tạo ra nội dung có hại hoặc không phù hợp. Quá trình tinh chỉnh lặp đi lặp lại này rất quan trọng để biến một mô hình thô, đã được đào tạo thành một sản phẩm bóng bẩy, thân thiện với người dùng như tính năng ImageGen trong ChatGPT-4o. Kết quả là “sự trôi chảy hình ảnh” cho phép mô hình tạo ra các hình ảnh mạch lạc, phù hợp với ngữ cảnh và thường đẹp một cách ấn tượng dựa trên các mô tả văn bản.

Cân nhắc chiến lược trong Đấu trường AI cạnh tranh

Động thái tiềm năng của OpenAI hướng tới việc đánh dấu watermark cho các thế hệ hình ảnh miễn phí cũng nên được xem xét trong bối cảnh cạnh tranh rộng lớn hơn củatrí tuệ nhân tạo. OpenAI không hoạt động trong chân không; nó phải đối mặt với sự cạnh tranh gay gắt từ các gã khổng lồ công nghệ như Google (với các mô hình Imagen và Gemini), những người chơi đã thành danh như Adobe (với Firefly, tập trung mạnh vào sử dụng thương mại và bồi thường cho người sáng tạo), và các nền tảng tạo ảnh AI chuyên dụng như Midjourney và Stability AI (Stable Diffusion).

Mỗi đối thủ cạnh tranh điều hướng các thách thức về kiếm tiền, đạo đức và phát triển năng lực một cách khác nhau. Midjourney, ví dụ, phần lớn hoạt động như một dịch vụ trả phí, tránh một số phức tạp của tầng miễn phí khổng lồ. Adobe nhấn mạnh dữ liệu đào tạo có nguồn gốc đạo đức và tích hợp vào quy trình làm việc sáng tạo. Google tích hợp các khả năng AI của mình trên hệ sinh thái sản phẩm rộng lớn của mình.

Đối với OpenAI, việc phân biệt các tầng miễn phí và trả phí thông qua các tính năng như hình ảnh không có watermark có thể là một đòn bẩy chiến lược quan trọng. Nó cho phép công ty tiếp tục cung cấp công nghệ tiên tiến cho đông đảo khán giả, thúc đẩy tăng trưởng hệ sinh thái và thu thập dữ liệu sử dụng có giá trị, đồng thời tạo ra lý do thuyết phục để người dùng thành thạo và doanh nghiệp đăng ký. Chiến lược này cần được hiệu chỉnh cẩn thận; làm cho tầng miễn phí quá hạn chế có thể đẩy người dùng sang các đối thủ cạnh tranh, trong khi làm cho nó quá dễ dãi có thể làm suy yếu giá trị cảm nhận của gói đăng ký trả phí.

Quyết định này cũng phản ánh sự phát triển không ngừng của OpenAI từ một tổ chức tập trung vào nghiên cứu thành một thực thể thương mại lớn (mặc dù có cấu trúc lợi nhuận giới hạn). Những động thái như thế này báo hiệu sự trưởng thành trong chiến lược sản phẩm của họ, không chỉ tập trung vào các đột phá công nghệ mà còn vào việc triển khai bền vững và định vị thị trường. Việc cân bằng sứ mệnh ban đầu là đảm bảo trí tuệ nhân tạo tổng quát mang lại lợi ích cho toàn nhân loại với các thực tế của việc điều hành một doanh nghiệp thâm dụng vốn vẫn là một căng thẳng trung tâm đối với công ty.

Khía cạnh Nhà phát triển: Một API sắp ra mắt

Ngoài trải nghiệm người dùng trực tiếp trong ChatGPT, OpenAI cũng đã báo hiệu ý định phát hành Giao diện Lập trình Ứng dụng (API) cho mô hình ImageGen. Đây là một sự phát triển rất được mong đợi với tiềm năng tác động đáng kể đến hệ sinh thái công nghệ rộng lớn hơn. Một API sẽ cho phép các nhà phát triển tích hợp khả năng tạo ảnh mạnh mẽ của OpenAI trực tiếp vào các ứng dụng, trang web và dịch vụ của riêng họ.

Khả năng là rất lớn:

  • Công cụ Sáng tạo: Các nền tảng thiết kế đồ họa mới, cải tiến phần mềm chỉnh sửa ảnh hoặc công cụ cho các nghệ sĩ ý tưởng có thể tận dụng API.
  • Thương mại điện tử: Các nền tảng có thể cho phép người bán tạo hình ảnh trực quan sản phẩm tùy chỉnh hoặc hình ảnh phong cách sống.
  • Tiếp thị và Quảng cáo: Các đại lý có thể phát triển các công cụ để nhanh chóng tạo quảng cáo sáng tạo hoặc nội dung truyền thông xã hội.
  • Trò chơi: Các nhà phát triển có thể sử dụng nó để tạo kết cấu, ý tưởng nhân vật hoặc tài sản môi trường.
  • Cá nhân hóa: Các dịch vụ có thể cung cấp cho người dùng khả năng tạo hình đại diện, hình minh họa hoặc hàng hóa ảo được cá nhân hóa.

Sự sẵn có của API ImageGen sẽ dân chủ hóa quyền truy cập vào công nghệ tạo ảnh tiên tiến cho các nhà phát triển, có khả năng châm ngòi cho một làn sóng đổi mới. Tuy nhiên, nó cũng mang lại những thách thức. Cấu trúc giá cho việc sử dụng API sẽ rất quan trọng. Các nhà phát triển sẽ cần các hướng dẫn rõ ràng về các trường hợp sử dụng được chấp nhận và kiểm duyệt nội dung. Hơn nữa, hiệu suất, độ tin cậy và khả năng mở rộng của API sẽ là những yếu tố quan trọng cho việc áp dụng nó. Cuộc thảo luận về watermark tiềm năng cũng có thể mở rộng sang việc sử dụng API, có lẽ với các tầng dịch vụ khác nhau cung cấp khả năng tạo không có watermark với chi phí cao hơn.

Điều hướng Vùng nước của Tính xác thực và Tin cậy

Cuối cùng, cuộc thảo luận xung quanh việc đánh dấu watermark cho hình ảnh do AI tạo ra chạm đến một thách thức cơ bản của thời đại chúng ta: duy trì sự tin cậy và tính xác thực trong một thế giới ngày càng kỹ thuật số và được trung gian bởi AI. Khi các mô hình AI trở nên thành thạo hơn trong việc tạo ra văn bản, hình ảnh, âm thanh và video thực tế, khả năng phân biệt giữa sáng tạo của con người và máy móc trở nên tối quan trọng.

Watermark đại diện cho một giải pháp kỹ thuật tiềm năng, một cách để nhúng thông tin nguồn gốc trực tiếp vào chính nội dung. Mặc dù không hoàn hảo (watermark đôi khi có thể bị xóa hoặc thao túng), nó đóng vai trò như một tín hiệu quan trọng. Điều này rất quan trọng không chỉ để bảo vệ sở hữu trí tuệ mà còn để chống lại sự lan truyền của thông tin sai lệch và thông tin giả mạo. Hình ảnh thực tế do AI tạo ra mô tả các sự kiện hoặc kịch bản giả mạo gây ra mối đe dọa đáng kể đối với diễn ngôn công cộng và niềm tin vào các thể chế.

Các tiêu chuẩn và thực tiễn toàn ngành để xác định nội dung do AI tạo ra vẫn đang phát triển. Các sáng kiến như C2PA (Coalition for Content Provenance and Authenticity), mà OpenAI là một phần, nhằm mục đích phát triển các tiêu chuẩn kỹ thuật để chứng nhận nguồn gốc và lịch sử của nội dung số. Watermark có thể được xem là một bước đi phù hợp với những nỗ lực rộng lớn hơn này.

Quyết định cuối cùng của OpenAI về watermark cho ImageGen của ChatGPT-4o sẽ được theo dõi chặt chẽ. Nó sẽ cung cấp cái nhìn sâu sắc về các ưu tiên chiến lược của công ty, cách tiếp cận của họ trong việc cân bằng khả năng tiếp cận với lợi ích thương mại, và lập trường của họ về các vấn đề quan trọng về tính minh bạch và trách nhiệm trong thời đại AI tạo sinh mạnh mẽ. Dù watermark có xuất hiện trên hình ảnh của tầng miễn phí hay không, các khả năng cơ bản của ImageGen và các cuộc trò chuyện mà nó khơi dậy về sự sáng tạo, quyền sở hữu và tính xác thực sẽ tiếp tục định hình tương lai của truyền thông kỹ thuật số.