Nghệ thuật AI Ghibli lan truyền gây quá tải OpenAI

Cơn lũ kỹ thuật số lấy cảm hứng từ huyền thoại hoạt hình

Trong thế giới trí tuệ nhân tạo không ngừng tăng tốc, những khoảnh khắc lan truyền chóng mặt thường đánh dấu những bước nhảy vọt đáng kể về khả năng hoặc khả năng tiếp cận. Gần đây, bối cảnh kỹ thuật số đã chứng kiến một hiện tượng như vậy, nhưng với một diễn biến bất ngờ. Chất xúc tác là sự tích hợp của một trình tạo hình ảnh mạnh mẽ trong mô hình đa phương thức mới nhất của OpenAI, GPT-4o. Tính năng mới này đã mở khóa một khả năng gây được tiếng vang sâu sắc với người dùng trên toàn thế giới: khả năng dễ dàng tạo ra những hình ảnh mô phỏng thẩm mỹ được yêu thích, kỳ lạ và dễ nhận biết ngay lập tức của hãng phim hoạt hình huyền thoại Nhật Bản, Studio Ghibli. Gần như chỉ sau một đêm, các nền tảng mạng xã hội, đặc biệt là X (trước đây là Twitter), Instagram và TikTok, đã tràn ngập những bức chân dung mê hoặc do AI tạo ra. Người dùng háo hức biến ảnh của chính họ, bạn bè, vật nuôi và thậm chí cả đồ vật vô tri thành các nhân vật dường như được lấy ra từ các bộ phim như My Neighbor Totoro hay Spirited Away. Sức hấp dẫn là không thể phủ nhận – sự pha trộn giữa công nghệ tiên tiến và nghệ thuật hoài cổ, có thể truy cập chỉ bằng vài lần nhấn phím. Đây không chỉ đơn thuần là một mối quan tâm thích hợp; nó nhanh chóng phát triển thành một xu hướng toàn cầu, một trải nghiệm kỹ thuật số được chia sẻ, được thúc đẩy bởi sự dễ dàng sáng tạo và niềm vui khi thấy mình được tái hiện qua lăng kính Ghibli. Số lượng lớn những hình ảnh này lưu hành trực tuyến đã chứng tỏ sự phổ biến tức thì và rộng rãi của tính năng này, thể hiện sự mê hoặc của công chúng đối với biểu hiện nghệ thuật cá nhân hóa, do AI điều khiển. Khả năng chia sẻ vốn có của những sáng tạo độc đáo này càng khuếch đại xu hướng, tạo ra một vòng lặp phản hồi nơi việc nhìn thấy hình ảnh phong cách Ghibli của người khác đã thúc đẩy nhiều người dùng hơn thử tính năng này.

Lời kêu gọi khẩn cấp từ cấp cao nhất: ‘Đội ngũ của chúng tôi cần ngủ’

Tuy nhiên, sự bùng nổ sáng tạo này, dù là minh chứng cho sức hấp dẫn của công nghệ, lại mang đến những hậu quả không lường trước được cho cơ sở hạ tầng hỗ trợ nó. Khối lượng yêu cầu tạo hình ảnh tuyệt đối bắt đầu đặt một áp lực chưa từng có lên hệ thống của OpenAI. Điều này dẫn đến một lời kêu gọi công khai khá bất thường từ Giám đốc điều hành của công ty, Sam Altman. Khác với cách giao tiếp thông thường của doanh nghiệp, Altman đã lên nền tảng mạng xã hội X với một thông điệp trực tiếp và thẳng thắn: ‘Mọi người làm ơn bình tĩnh lại việc tạo ảnh được không, điều này thật điên rồ. Đội ngũ của chúng tôi cần ngủ.’ Đây không chỉ là một nhận xét thông thường; đó là một tín hiệu báo động cho thấy cường độ của tình hình phía sau hậu trường. Nhu cầu, phần lớn được thúc đẩy bởi cơn sốt hình ảnh Studio Ghibli, đã vượt qua cả những dự báo lạc quan nhất. Trả lời câu hỏi của người dùng về sự gia tăng đột biến, Altman đã sử dụng một phép ẩn dụ nổi bật, mô tả dòng yêu cầu đổ về như ‘nhu cầu khủng khiếp như trong kinh thánh’ (‘biblical demand’). Cách diễn đạt gợi hình này nhấn mạnh quy mô của thách thức, cho thấy mức độ sử dụng đang áp đảo năng lực của công ty. Ông giải thích thêm rằng OpenAI đã phải vật lộn để theo kịp nhu cầu này về cơ bản kể từ khi tính năng ra mắt, cho thấy tình trạng bão hòa hệ thống không phải là một đỉnh điểm nhất thời mà là một điểm áp lực kéo dài. Lời kêu gọi đã làm nổi bật một căng thẳng quan trọng trong lĩnh vực AI: tiềm năng thành công vượt ngoài tầm kiểm soát có thể vượt qua chính cơ sở hạ tầng được thiết kế để hỗ trợ nó. Một người dùng thậm chí còn phản hồi một cách hài hước bài đăng của Altman bằng cách sử dụng chính công cụ đang được đề cập – trình tạo hình ảnh của ChatGPT-4o – để tạo ra một bức tranh minh họa theo phong cách Ghibli mô tả một đội ngũ OpenAI kiệt sức, tóm gọn hoàn hảo tình hình.

Bên trong: Gánh nặng đè lên hạ tầng kỹ thuật số

Lời kêu gọi của Altman không phải là cường điệu. Tài nguyên tính toán cần thiết để tạo ra hình ảnh chất lượng cao, đặc biệt là ở quy mô được chứng kiến trong xu hướng Ghibli, là rất lớn. Các mô hình AI hiện đại, đặc biệt là những mô hình xử lý dữ liệu hình ảnh, phụ thuộc rất nhiều vào Bộ xử lý đồ họa (GPUs). Các bộ xử lý chuyên dụng này vượt trội trong các phép tính song song cần thiết để đào tạo và chạy các mạng nơ-ron phức tạp. Tuy nhiên, chúng là một nguồn tài nguyên hữu hạn, đắt đỏ và tiêu tốn nhiều năng lượng. Chỉ vài ngày trước yêu cầu ‘bình tĩnh’ của mình, Altman đã ám chỉ về mức độ nghiêm trọng của tình hình, cảnh báo người dùng rằng GPUs của OpenAI thực sự đang ‘tan chảy’ dưới khối lượng công việc khổng lồ. Ngôn ngữ hình tượng này vẽ nên một bức tranh sống động về phần cứng bị đẩy đến giới hạn tuyệt đối, vật lộn để xử lý dòng lệnh tạo hình ảnh không ngừng nghỉ.

Để quản lý ‘nhu cầu khủng khiếp’ này và ngăn chặn tình trạng quá tải hệ thống hoàn toàn, OpenAI buộc phải thực hiện giới hạn tốc độ tạm thời (temporary rate limits). Đây là một thực tế tiêu chuẩn trong ngành khi việc sử dụng dịch vụ vượt quá đáng kể công suất. Nó liên quan đến việc hạn chế số lượng yêu cầu mà người dùng có thể thực hiện trong một khung thời gian cụ thể. Altman thông báo rằng người dùng sử dụng gói miễn phí của ChatGPT sẽ sớm phải đối mặt với các giới hạn, có khả năng bị hạn chế ở một số lượng nhỏ các lần tạo hình ảnh mỗi ngày – có lẽ chỉ là ba lần. Khả năng tạo hình ảnh đầy đủ, trong thời điểm hiện tại, sẽ chủ yếu vẫn có thể truy cập được đối với những người đăng ký các gói cao cấp như ChatGPT Plus, Pro, Team và Select. Trong khi trấn an người dùng rằng công ty đang làm việc siêng năng để cải thiện hiệu quả và mở rộng quy mô năng lực – tuyên bố, ‘Hy vọng sẽ không lâu đâu!’ – việc thực hiện giới hạn tốc độ đóng vai trò như một biện pháp cụ thể phản ánh tính chất quan trọng của sự căng thẳng tài nguyên. Hiện tượng Ghibli, về bản chất, đã kiểm tra sức chịu đựng cơ sở hạ tầng của OpenAI một cách rất công khai và đòi hỏi cao, buộc phải có các biện pháp phản ứng để duy trì sự ổn định của hệ thống.

Hơn nữa, áp lực dữ dội lên hệ thống đã dẫn đến các trục trặc vận hành khác. Altman cũng thừa nhận các báo cáo của người dùng rằng một số yêu cầu hình ảnh hợp pháp đang vô tình bị chặn bởi hệ thống, có khả năng là do các cơ chế lọc quá mạnh được triển khai dưới áp lực. Ông hứa sẽ giải quyết nhanh chóng vấn đề này, nhấn mạnh hành động cân bằng tinh tế mà các công ty như OpenAI phải đối mặt giữa việc quản lý nhu cầu quá lớn và đảm bảo trải nghiệm người dùng mượt mà cho các trường hợp sử dụng hợp pháp. Sự cố này đóng vai trò như một lời nhắc nhở mạnh mẽ rằng ngay cả những hệ thống AI tiên tiến nhất cũng được củng cố bởi phần cứng vật lý và hậu cần vận hành phức tạp có thể bị kéo căng bởi sự phổ biến lan truyền bất ngờ.

GPT-4o: Kỳ quan đa phương thức thúc đẩy xu hướng

Động cơ thúc đẩy làn sóng nghệ thuật phong cách Ghibli lan truyền này là GPT-4o (chữ ‘o’ là viết tắt của ‘omni’) của OpenAI. Mô hình này đại diện cho một bước tiến đáng kể trong sự phát triển của các mô hình ngôn ngữ lớn, chủ yếu là do tính đa phương thức gốc của nó. Không giống như các phiên bản trước đó có thể đã xử lý văn bản, âm thanh và hình ảnh thông qua các thành phần riêng biệt, GPT-4o được thiết kế từ đầu để xử lý và tạo thông tin trên các phương thức khác nhau này một cách liền mạch trong một mạng nơ-ron duy nhất. Kiến trúc tích hợp này cho phép thời gian phản hồi nhanh hơn nhiều và trải nghiệm tương tác linh hoạt hơn, đặc biệt là khi kết hợp các loại đầu vào và đầu ra khác nhau.

Trong khi khả năng tạo hình ảnh chiếm được trí tưởng tượng của công chúng thông qua xu hướng Ghibli, đó chỉ là một khía cạnh trong tiềm năng rộng lớn hơn của GPT-4o. Khả năng hiểu và thảo luận về hình ảnh, lắng nghe đầu vào âm thanh và phản hồi bằng giọng nói với tông điệu và cảm xúc tinh tế, cũng như xử lý văn bản đại diện cho một bước tiến tới tương tác giống con người hơn với AI. Do đó, trình tạo hình ảnh tích hợp không chỉ đơn thuần là một tiện ích bổ sung; đó là một minh chứng cho cách tiếp cận đa phương thức thống nhất này. Người dùng có thể mô tả một cảnh bằng văn bản, thậm chí có thể tham chiếu đến một hình ảnh được tải lên, và GPT-4o có thể tạo ra một biểu diễn hình ảnh mới dựa trên đầu vào kết hợp đó. Sự thành thạo của mô hình trong việc nắm bắt các phong cách nghệ thuật cụ thể, như của Studio Ghibli, đã thể hiện sự hiểu biết tinh vi về ngôn ngữ hình ảnh và khả năng dịch các mô tả văn bản thành thẩm mỹ phức tạp. Do đó, xu hướng lan truyền không chỉ là về những bức ảnh đẹp; đó là một minh chứng sớm, rộng rãi về sức mạnh và khả năng tiếp cận của AI đa phương thức tiên tiến. Nó cho phép hàng triệu người trải nghiệm trực tiếp tiềm năng sáng tạo được mở khóa khi việc tạo văn bản và hình ảnh được đan xen chặt chẽ trong một mô hình duy nhất, mạnh mẽ.

Hướng tới chân trời: Bình minh của GPT-4.5 và một loại trí tuệ khác

Ngay cả khi OpenAI vật lộn với các yêu cầu về cơ sở hạ tầng do sự phổ biến của GPT-4o tạo ra, công ty vẫn tiếp tục tốc độ đổi mới không ngừng, hé lộ về sự tiến hóa công nghệ tiếp theo của mình: GPT-4.5. Điều thú vị là Altman định vị mô hình sắp tới này hơi khác so với những người tiền nhiệm của nó. Trong khi các mô hình trước đây thường nhấn mạnh những cải tiến về điểm số benchmark và khả năng suy luận, GPT-4.5 đang được định hình là theo đuổi một trí tuệ có mục đích tổng quát hơn (general-purpose intelligence). Altman tuyên bố rõ ràng, ‘Đây không phải là một mô hình suy luận và sẽ không phá vỡ các benchmark.’ Thay vào đó, ông gợi ý rằng nó thể hiện một ‘loại trí tuệ khác’ (‘different kind of intelligence’).

Sự phân biệt này rất quan trọng. Nó báo hiệu một sự thay đổi tiềm năng trong trọng tâm từ năng lực phân tích hoặc giải quyết vấn đề thuần túy sang các phẩm chất có thể cảm thấy trực quan hoặc toàn diện hơn. Altman đã giải thích chi tiết về trải nghiệm cá nhân của mình khi tương tác với mô hình, mô tả nó giống như ‘nói chuyện với một người chu đáo’ (‘talking to a thoughtful person’). Ông bày tỏ cảm giác ngạc nhiên và ngưỡng mộ thực sự, đề cập rằng mô hình đã khiến ông ‘kinh ngạc’ (‘astonished’) đôi khi. Điều này cho thấy các khả năng có thể liên quan đến sự hiểu biết ngữ cảnh sâu sắc hơn, có lẽ là sự sáng tạo tinh tế hơn, hoặc một luồng hội thoại tự nhiên hơn vượt ra ngoài việc chỉ đơn giản là truy xuất thông tin hoặc làm theo hướng dẫn. Sự phấn khích của ông là rõ ràng: ‘thực sự hào hứng để mọi người dùng thử nó!’ (‘really excited for people to try it!’) ông tuyên bố. Cái nhìn thoáng qua về GPT-4.5 này gợi ý về một tương lai nơi tương tác AI có thể trở nên ít giao dịch hơn và mang tính hợp tác hoặc thậm chí đồng hành hơn. Trong khi GPT-4o thúc đẩy cơn sốt nghệ thuật thị giác, GPT-4.5 có thể mở ra một kỷ nguyên được xác định bởi tương tác hội thoại và khái niệm tinh vi hơn, làm mờ hơn nữa ranh giới giữa trí tuệ con người và máy móc, mặc dù theo một cách không chỉ được xác định bởi các bài kiểm tra tiêu chuẩn hóa.

Lèo lái vùng nước chưa khám phá của AI quy mô lớn

Sự việc xung quanh xu hướng hình ảnh Studio Ghibli và lời kêu gọi sau đó của Sam Altman đóng vai trò như một mô hình thu nhỏ của những thách thức và động lực rộng lớn hơn đang định hình bối cảnh AI hiện tại. Nó minh họa một cách sống động một số chủ đề chính:

  1. Sức mạnh của Khả năng tiếp cận và Tính lan truyền: Việc làm cho một công cụ sáng tạo mạnh mẽ trở nên cực kỳ dễ sử dụng và tập trung vào một chủ đề có tiếng vang văn hóa (như phong cách nghệ thuật của Ghibli) có thể kích hoạt tốc độ chấp nhận bùng nổ, không thể đoán trước, vượt xa cả những dự báo lạc quan nhất.
  2. Hạ tầng như một Nút cổ chai: Bất chấp những tiến bộ đáng kể trong thuật toán AI, cơ sở hạ tầng vật lý – GPUs, máy chủ, lưới điện – vẫn là một yếu tố giới hạn quan trọng. Việc mở rộng quy mô các tài nguyên này đủ nhanh để đáp ứng sự gia tăng đột ngột về nhu cầu là một thách thức kỹ thuật và tài chính đáng kể.
  3. Nghịch lý Thành công: Thành công lan truyền, mặc dù đáng mong đợi, có thể tạo ra áp lực vận hành to lớn. Các công ty phải cân bằng giữa việc thúc đẩy sự tham gia của người dùng với việc duy trì sự ổn định của hệ thống, thường đòi hỏi các quyết định khó khăn như thực hiện giới hạn tốc độ có thể gây khó chịu cho một số người dùng.
  4. Yếu tố Con người trong Lãnh đạo Công nghệ: Lời kêu gọi thẳng thắn, gần như không chính thức của Altman (‘Đội ngũ của chúng tôi cần ngủ’) đã cung cấp một cái nhìn hiếm hoi về khía cạnh con người trong việc quản lý một công ty công nghệ tiên tiến đối mặt với nhu cầu quá lớn. Nó gây được tiếng vang khác biệt so với một thông cáo báo chí thông thường của công ty về bảo trì hệ thống.
  5. Sự tiến hóa liên tục: Ngay cả khi một mô hình (GPT-4o) gây căng thẳng về cơ sở hạ tầng do sự phổ biến của nó, phiên bản tiếp theo (GPT-4.5) đã được xem trước, nhấn mạnh tốc độ phát triển không ngừng và sự thúc đẩy liên tục hướng tới các khả năng và mô hình mới trong AI.
  6. Sự mê hoặc và Tham gia của Công chúng: Xu hướng Ghibli nhấn mạnh sự tò mò sâu sắc và sự háo hức của công chúng trong việc tương tác với các công cụ AI, đặc biệt là những công cụ cho phép biểu đạt cá nhân và sáng tạo. Sự tham gia này thúc đẩy sự phát triển hơn nữa nhưng cũng đòi hỏi việc triển khai và quản lý tài nguyên có trách nhiệm.

Khi AI tiếp tục tích hợp nhanh chóng vào các khía cạnh khác nhau của cuộc sống số, những sự cố như thế này có khả năng trở nên phổ biến hơn. Sự tương tác giữa các đột phá công nghệ, mô hình chấp nhận của người dùng, giới hạn cơ sở hạ tầng và yếu tố con người trong việc quản lý các hệ thống phức tạp này sẽ tiếp tục xác định quỹ đạo của trí tuệ nhân tạo trong những năm tới. Cơn lũ hình ảnh Ghibli không chỉ là một xu hướng internet thoáng qua; đó là một minh chứng mạnh mẽ về sức hấp dẫn chính thống của AI và những hậu quả rất thực tế của việc đạt được nó.