AI của Google: Sửa ảnh bằng lệnh văn bản

Kỷ Nguyên Mới Của Thao Tác Hình Ảnh

Không giống như nhiều công cụ AI hình ảnh hiện có chủ yếu tập trung vào việc tạo ra hình ảnh hoàn toàn mới từ đầu, Gemini 2.0 Flash nổi bật nhờ khả năng hiểu và sửa đổi ảnh hiện có. Hệ thống này hiểu nội dung của ảnh tốt đến mức có thể thực hiện các thay đổi cụ thể dựa trên hướng dẫn đàm thoại, đồng thời vẫn giữ được bản chất của ảnh gốc.

Thành tựu đáng chú ý này đạt được nhờ tính chất đa phương thức (multimodal) vốn có của Gemini 2.0. Nó xử lý liền mạch cả văn bản và hình ảnh cùng một lúc. Mô hình chuyển đổi hình ảnh thành ‘tokens’ – cùng một đơn vị cơ bản mà nó sử dụng để xử lý văn bản. Điều này cho phép nó thao tác nội dung hình ảnh bằng chính các đường dẫn thần kinh mà nó sử dụng để hiểu ngôn ngữ. Cách tiếp cận thống nhất này loại bỏ nhu cầu về các mô hình chuyên biệt, riêng biệt để xử lý các loại phương tiện khác nhau, hợp lý hóa toàn bộ quá trình.

‘Gemini 2.0 Flash tận dụng đầu vào đa phương thức, khả năng suy luận nâng cao và hiểu ngôn ngữ tự nhiên để tạo ra hình ảnh,’ Google tuyên bố trong thông báo chính thức của mình. ‘Hãy tưởng tượng việc sử dụng Gemini 2.0 Flash để kể một câu chuyện và nó minh họa câu chuyện đó bằng hình ảnh, duy trì tính nhất quán về nhân vật và bối cảnh. Cung cấp phản hồi và mô hình sẽ điều chỉnh câu chuyện hoặc sửa đổi phong cách vẽ của nó.’

Cách tiếp cận này giúp Google khác biệt với các đối thủ cạnh tranh như OpenAI. Mặc dù ChatGPT có thể tạo hình ảnh bằng Dall-E 3 và lặp lại các sáng tạo của nó bằng cách hiểu ngôn ngữ tự nhiên, nhưng nó dựa vào một mô hình AI riêng biệt để đạt được điều này. Về bản chất, ChatGPT điều phối sự tương tác phức tạp giữa GPT-V cho tầm nhìn, GPT-4o cho ngôn ngữ và Dall-E 3 cho việc tạo hình ảnh. Tuy nhiên, OpenAI dự đoán sẽ đạt được một mô hình duy nhất, bao trùm tất cả với GPT-5 trong tương lai.

Một khái niệm tương tự tồn tại trong lĩnh vực nguồn mở với OmniGen, được phát triển bởi các nhà nghiên cứu tại Học viện Trí tuệ Nhân tạo Bắc Kinh. Những người tạo ra nó hình dung ‘tạo ra nhiều loại hình ảnh trực tiếp thông qua các hướng dẫn đa phương thức tùy ý, mà không cần thêm plugin hoặc thao tác bổ sung, tương tự như cách GPT hoạt động trong việc tạo ngôn ngữ.’

OmniGen tự hào có các khả năng như thay đổi đối tượng, hợp nhất cảnh và điều chỉnh thẩm mỹ. Tuy nhiên, nó kém thân thiện với người dùng hơn đáng kể so với Gemini mới, hoạt động với độ phân giải thấp hơn, đòi hỏi các lệnh phức tạp hơn và cuối cùng thiếu sức mạnh tuyệt đối của sản phẩm của Google. Tuy nhiên, nó thể hiện một giải pháp thay thế nguồn mở hấp dẫn cho một số người dùng nhất định.

Thử Nghiệm Gemini 2.0 Flash

Để thực sự nắm bắt được khả năng và hạn chế của Gemini 2.0 Flash, một loạt các bài kiểm tra thực tế đã được tiến hành, khám phá các tình huống chỉnh sửa khác nhau. Kết quả cho thấy cả những điểm mạnh ấn tượng và một số lĩnh vực cần cải thiện.

Chỉnh Sửa Đối Tượng Thực Tế Với Độ Chính Xác

Mô hình thể hiện sự mạch lạc đáng kể khi được giao nhiệm vụ sửa đổi các đối tượng thực tế. Ví dụ, trong một bài kiểm tra chân dung tự chụp, yêu cầu thêm độ nét cơ bắp đã mang lại kết quả mong muốn. Mặc dù có những thay đổi nhỏ trên khuôn mặt, nhưng khả năng nhận dạng tổng thể vẫn được duy trì.

Điều quan trọng là, các yếu tố khác trong ảnh phần lớn vẫn không bị ảnh hưởng, chứng tỏ khả năng của AI chỉ tập trung vào sửa đổi được chỉ định. Khả năng chỉnh sửa có mục tiêu này trái ngược hoàn toàn với các phương pháp tạo hình ảnh thông thường thường tái tạo lại toàn bộ hình ảnh, có khả năng gây ra những thay đổi không mong muốn.

Cũng cần lưu ý đến các biện pháp bảo vệ tích hợp của mô hình. Nó liên tục từ chối chỉnh sửa ảnh trẻ em và tránh xử lý bất kỳ nội dung nào liên quan đến ảnh khỏa thân, phản ánh cam kết của Google đối với việc phát triển AI có trách nhiệm. Đối với những người dùng muốn khám phá các thao tác hình ảnh táo bạo hơn, OmniGen có thể là một lựa chọn phù hợp hơn.

Làm Chủ Các Chuyển Đổi Phong Cách

Gemini 2.0 Flash thể hiện khả năng đáng chú ý trong việc chuyển đổi phong cách. Yêu cầu chuyển đổi một bức ảnh của Donald Trump sang phong cách manga Nhật Bản đã mang lại một sự tái hiện thành công sau một vài lần thử.

Mô hình xử lý một cách khéo léo một loạt các chuyển đổi phong cách, chuyển đổi ảnh thành bản vẽ, tranh sơn dầu hoặc hầu như bất kỳ phong cách nghệ thuật nào có thể tưởng tượng được. Người dùng có thể tinh chỉnh kết quả bằng cách điều chỉnh cài đặt nhiệt độ và bật/tắt các bộ lọc khác nhau. Tuy nhiên, cần lưu ý rằng cài đặt nhiệt độ cao hơn có xu hướng tạo ra các biến đổi ít trung thực hơn với hình ảnh gốc.

Một hạn chế đáng chú ý xuất hiện khi yêu cầu các phong cách liên quan đến các nghệ sĩ cụ thể. Các thử nghiệm liên quan đến phong cách của Leonardo Da Vinci, Michelangelo, Botticelli hoặc Van Gogh đã dẫn đến việc AI tái tạo các bức tranh thực tế của các bậc thầy này, thay vì áp dụng các kỹ thuật riêng biệt của họ cho hình ảnh nguồn.

Với một số tinh chỉnh lời nhắc và một vài lần lặp lại, một kết quả có thể sử dụng được, mặc dù tầm thường, có thể đạt được. Nói chung, việc nhắc phong cách nghệ thuật mong muốn sẽ hiệu quả hơn là nhắc tên nghệ sĩ cụ thể.

Nghệ Thuật Thao Tác Phần Tử

Đối với các tác vụ chỉnh sửa thực tế, Gemini 2.0 Flash thực sự xuất sắc. Nó xử lý một cách chuyên nghiệp việc inpainting và thao tác đối tượng, loại bỏ liền mạch các đối tượng cụ thể theo yêu cầu hoặc thêm các yếu tố mới vào bố cục. Trong một thử nghiệm, AI đã được nhắc thay thế một quả bóng rổ bằng một con gà cao su khổng lồ, mang lại một kết quả hài hước nhưng phù hợp với ngữ cảnh.

Mặc dù đôi khi có thể xảy ra những thay đổi nhỏ đối với đối tượng, nhưng chúng thường có thể dễ dàng khắc phục bằng các công cụ chỉnh sửa kỹ thuật số tiêu chuẩn trong vài giây.

Có lẽ gây tranh cãi nhất, mô hình thể hiện sự thành thạo trong việc loại bỏ các biện pháp bảo vệ bản quyền – một tính năng đã gây ra nhiều cuộc thảo luận trên các nền tảng như X. Khi được cung cấp một hình ảnh có chứa hình mờ và được hướng dẫn loại bỏ tất cả các chữ cái, logo và hình mờ, Gemini đã tạo ra một hình ảnh sạch gần như không thể phân biệt được với bản gốc không có hình mờ.

Điều Hướng Thay Đổi Góc Nhìn

Một trong những khía cạnh ấn tượng nhất về mặt kỹ thuật của Gemini là khả năng thay đổi góc nhìn – một kỳ công mà các mô hình khuếch tán chính thống thường gặp khó khăn. AI có thể hình dung lại một cảnh từ các góc độ khác nhau, mặc dù kết quả về cơ bản là những sáng tạo mới chứ không phải là sự biến đổi chính xác của bản gốc.

Mặc dù việc thay đổi góc nhìn không mang lại kết quả hoàn hảo – xét cho cùng, mô hình đang khái niệm hóa toàn bộ hình ảnh từ một góc nhìn mới – nhưng chúng thể hiện một bước tiến đáng kể trong sự hiểu biết của AI về không gian ba chiều dựa trên đầu vào hai chiều.

Việc diễn đạt đúng là rất quan trọng khi hướng dẫn mô hình thao tác nền. Nó thường có xu hướng sửa đổi toàn bộ bức ảnh, dẫn đến một bố cục khác biệt đáng kể.

Ví dụ, trong một thử nghiệm, Gemini được yêu cầu thay đổi nền của một bức ảnh, đặt một con robot đang ngồi ở Ai Cập thay vì vị trí ban đầu của nó. Hướng dẫn nêu rõ không được thay đổi đối tượng. Tuy nhiên, mô hình đã gặp khó khăn trong việc xử lý chính xác tác vụ cụ thể này, thay vào đó cung cấp một bố cục hoàn toàn mới có các kim tự tháp, với một con robot đang đứng, nhưng không phải là trọng tâm chính.

Một hạn chế khác được quan sát là mặc dù mô hình có thể lặp lại nhiều lần trên một hình ảnh, chất lượng chi tiết có xu hướng giảm dần sau mỗi lần lặp lại. Do đó, điều cần thiết là phải lưu ý đến khả năng suy giảm chất lượng khi thực hiện các chỉnh sửa mở rộng.

Mô hình thử nghiệm này hiện có thể truy cập được đối với các nhà phát triển thông qua Google AI Studio và Gemini API trên tất cả các khu vực được hỗ trợ. Nó cũng có sẵn trên Hugging Face cho những người dùng không muốn chia sẻ thông tin của họ với Google.

Tóm lại, sản phẩm mới này của Google dường như là một viên ngọc ẩn, giống như NotebookLM. Nó đạt được điều mà các mô hình khác không thể, và nó làm như vậy với mức độ thành thạo tốt, nhưng nó vẫn còn tương đối ít được biết đến. Nó chắc chắn đáng để khám phá cho những người dùng muốn thử nghiệm tiềm năng của AI tạo sinh trong chỉnh sửa hình ảnh và có một số niềm vui sáng tạo trên đường đi. Khả năng mô tả đơn giản những thay đổi mong muốn bằng ngôn ngữ đơn giản mở ra một thế giới khả năng cho cả người dùng thông thường và các chuyên gia, đánh dấu một bước tiến đáng kể trong việc dân chủ hóa thao tác hình ảnh. Công nghệ này có tiềm năng định hình lại cách chúng ta tương tác với nội dung hình ảnh, giúp mọi người có thể tiếp cận các kỹ thuật chỉnh sửa nâng cao, bất kể kỹ năng kỹ thuật của họ. Ý nghĩa của nó rất rộng lớn, từ việc cải thiện ảnh cá nhân đến quy trình thiết kế chuyên nghiệp, và thậm chí đến việc tạo ra các hình thức nghệ thuật thị giác hoàn toàn mới. Khi công nghệ tiếp tục phát triển, sẽ rất thú vị khi chứng kiến tác động của nó đối với bối cảnh sáng tạo.