Video AI của Google Gemini: Đánh giá ban đầu

Google đã chính thức bước chân vào lĩnh vực video trí tuệ nhân tạo (AI), cung cấp mô hình video AI Veo 2 cho người đăng ký Gemini Advanced.

Điều này đánh dấu sự ra mắt công khai của công nghệ video AI của Google, mặc dù ban đầu chỉ dành cho người dùng trả phí.

Những ai muốn thử nghiệm Veo 2 có thể tận dụng bản dùng thử miễn phí một tháng của gói đăng ký Google One AI premium, bao gồm quyền truy cập vào Gemini Advanced. Sau thời gian dùng thử, gói đăng ký có giá 20 đô la mỗi tháng. Veo 2 cũng được tích hợp vào dự án hoạt hình AI mới của Google Labs. Google dự định mở rộng khả năng tiếp cận Veo 2 cho người dùng miễn phí trong tương lai.

Sự ra đời của video AI đánh dấu sự phát triển mới nhất trong AI tạo sinh. Việc Google phát hành rộng rãi Veo 2 diễn ra sau các sáng kiến tương tự của OpenAI (Sora) và Adobe (Firefly). Lĩnh vực dịch vụ sáng tạo AI đang trở nên cạnh tranh hơn, với các công ty công nghệ lớn liên tục giới thiệu các mô hình video AI của họ. Sự tham gia của Google cho thấy động lực ngày càng tăng trong việc cung cấp dịch vụ video AI.

Chính sách bảo mật của Google Gemini quy định rằng họ có thể thu thập dữ liệu từ các tương tác của người dùng, bao gồm các cuộc trò chuyện và tệp, khuyến cáo người dùng không chia sẻ thông tin bí mật. Bằng cách đồng ý với chính sách AI tạo sinh của Google, người dùng đồng ý tuân thủ các nguyên tắc sử dụng được chấp nhận của công ty, nhằm ngăn chặn việc tạo ra nội dung có hại hoặc bất hợp pháp.

Người dùng có thể tạo các đoạn clip AI ngắn thông qua ứng dụng web hoặc ứng dụng di động Gemini bằng cách chọn Veo 2 từ các tùy chọn mô hình trong giao diện Gemini Advanced. Video thường được tạo trong vòng một hoặc hai phút.

Các clip do AI tạo ra này bị giới hạn ở độ dài tám giây và độ phân giải 720p, không có âm thanh. Gemini tự động kết xuất video ở định dạng ngang 16:9 và không có tùy chọn rõ ràng nào cho các kích thước thay thế, ngay cả khi được chỉ định trong lời nhắc. Hơn nữa, người dùng không thể tải lên hình ảnh hoặc tài liệu tham khảo về kiểu dáng, đòi hỏi sự thành thạo trong kỹ thuật nhắc nhở AI để đạt được kết quả video mong muốn.

Có những hạn chế về số lượng video người dùng có thể tạo mỗi tháng, mặc dù cách đo lường chính xác các khoản tín dụng này vẫn chưa được xác định. Google chỉ ra rằng người dùng sẽ nhận được cảnh báo trong Gemini khi họ gần đạt đến giới hạn của mình.

Hình mờ SynthID của Google được tự động nhúng vào video Veo 2. Những hình mờ không thể nhận thấy này dùng để xác định nội dung được tạo hoàn toàn bởi AI. Google cũng sử dụng công nghệ này cho hình ảnh được tạo bằng mô hình chuyển văn bản thành hình ảnh Imagen 3 của mình.

Các đánh giá ban đầu về Veo 2 cho thấy các video này đạt yêu cầu nhưng không có gì đặc biệt. Gemini đã thể hiện sự tuân thủ đáng khen ngợi đối với các lời nhắc, tạo nội dung chính xác với lỗi hoặc điểm không nhất quán tối thiểu. Tuy nhiên, các nền tảng như Sora và Firefly cho phép tạo video AI ở độ phân giải cao hơn, chẳng hạn như 1080p, và cung cấp các tùy chọn tùy chỉnh mở rộng hơn, điều này rất quan trọng để giảm thiểu chỉnh sửa hậu kỳ. Mặc dù Google chắc chắn có kế hoạch nâng cấp Veo, nhưng Veo 2 hiện đóng vai trò là một công cụ thú vị để thử nghiệm nhưng khó có khả năng trở nên cần thiết cho quy trình làm việc hàng ngày của người sáng tạo.

Đi sâu hơn vào Veo 2 của Gemini: Tổng quan toàn diện

Mặc dù bản phát hành ban đầu của Veo 2 của Google có vẻ không ấn tượng so với các đối thủ cạnh tranh như Sora của OpenAI và Firefly của Adobe, nhưng điều quan trọng là phải đi sâu hơn vào các chi tiết cụ thể về khả năng, hạn chế và tiềm năng của nó. Hiểu rõ những sắc thái này là rất quan trọng đối với bất kỳ ai cân nhắc tích hợp Veo 2 vào quy trình làm việc sáng tạo của họ.

Độ phân giải và chất lượng đầu ra

Một trong những hạn chế rõ ràng nhất của Veo 2 là độ phân giải đầu ra tối đa là 720p. Trong kỷ nguyên mà video 4K ngày càng trở nên tiêu chuẩn và ngay cả các thiết bị di động cũng có khả năng quay ở độ nét cao, hạn chế này ảnh hưởng đáng kể đến chất lượng cảm nhận của nội dung được tạo ra. Mặc dù 720p có thể đủ cho các bài đăng nhanh trên mạng xã hội hoặc thông tin liên lạc nội bộ, nhưng nó không đáp ứng được các ứng dụng chuyên nghiệp hoặc các dự án yêu cầu độ trung thực hình ảnh cao. Các đối thủ cạnh tranh như Sora, cung cấp đầu ra 1080p, ngay lập tức có lợi thế trong lĩnh vực này.

Vắng bóng âm thanh

Việc thiếu âm thanh trong video do Veo 2 tạo ra là một hạn chế đáng chú ý khác. Âm thanh là một yếu tố quan trọng trong việc kể chuyện bằng video và việc thiếu âm thanh đòi hỏi phải thực hiện thêm công việc hậu kỳ để thêm nhạc, hiệu ứng âm thanh hoặc đối thoại. Điều này không chỉ làm tăng thời gian và công sức cần thiết để tạo ra một sản phẩm hoàn chỉnh mà còn hạn chế khả năng sáng tạo trong chính quy trình tạo AI. Người dùng hy vọng nhanh chóng tạo ra các video hấp dẫn với âm thanh tích hợp sẽ thấy Veo 2 thiếu sót trong lĩnh vực này.

Tùy chọn tùy chỉnh hạn chế

Các tùy chọn tùy chỉnh hạn chế của Veo 2 tiếp tục hạn chế khả năng sử dụng của nó. Việc không thể chỉ định tỷ lệ khung hình ngoài định dạng 16:9 tiêu chuẩn, cùng với việc thiếu hỗ trợ cho hình ảnh hoặc tài liệu tham khảo về kiểu dáng, gây khó khăn cho việc điều chỉnh đầu ra theo các tầm nhìn sáng tạo cụ thể. Điều này buộc người dùng phải dựa nhiều vào các lời nhắc văn bản, điều này có thể khó điều chỉnh để đạt được kết quả chính xác. Ngược lại, các nền tảng cho phép nhập trực quan và kiểm soát chi tiết hơn đối với kiểu dáng và bố cục mang lại một lợi thế đáng kể.

Thách thức kỹ thuật nhắc nhở

Với những hạn chế trong tùy chỉnh, kỹ thuật nhắc nhở hiệu quả trở nên tối quan trọng khi sử dụng Veo 2. Người dùng phải học cách tạo ra các lời nhắc chi tiết và chính xácđể hướng dẫn AI hướng tới kết quả mong muốn. Điều này đòi hỏi sự hiểu biết sâu sắc về cách AI diễn giải ngôn ngữ và chuyển nó thành nội dung trực quan. Mặc dù thử nghiệm có thể giúp người dùng phát triển kỹ năng này, nhưng đường cong học tập có thể dốc và ngay cả những kỹ sư nhắc nhở có kinh nghiệm cũng có thể gặp khó khăn trong việc đạt được kết quả nhất quán. Việc thiếu phản hồi trực quan trong quá trình tạo lời nhắc càng làm phức tạp thêm vấn đề.

Giới hạn tạo hàng tháng

Các giới hạn tạo hàng tháng không được tiết lộ sẽ thêm một lớp không chắc chắn khác vào khả năng sử dụng của Veo 2. Nếu không có thông tin rõ ràng về cách tính toán các giới hạn này, người dùng có thể ngần ngại tích hợp hoàn toàn Veo 2 vào quy trình làm việc của họ, lo sợ rằng họ sẽ hết tín dụng vào thời điểm quan trọng. Sự thiếu minh bạch này đặc biệt đáng lo ngại đối với những người dùng chuyên nghiệp dựa vào khả năng truy cập có thể đoán trước vào các công cụ AI.

Lời hứa của hình mờ SynthID

Bất chấp những hạn chế của nó, Veo 2 có một lợi thế đáng chú ý: việc bao gồm hình mờ SynthID. Những hình mờ vô hình này giúp phân biệt nội dung do AI tạo ra với nội dung do con người tạo ra, điều này ngày càng trở nên quan trọng trong cuộc chiến chống lại thông tin sai lệch và deepfake. Mặc dù hiệu quả của SynthID trong việc phát hiện video do AI tạo ra trên các nền tảng và quy trình chỉnh sửa khác nhau vẫn còn phải xem, nhưng việc đưa nó vào báo hiệu cam kết của Google đối với sự phát triển AI có trách nhiệm.

Tiềm năng cho sự phát triển trong tương lai

Điều quan trọng cần nhớ là Veo 2 vẫn đang trong giai đoạn phát triển ban đầu. Google có lịch sử cải thiện lặp đi lặp lại các sản phẩm AI của mình và có khả năng Veo 2 sẽ nhận được các bản cập nhật và cải tiến đáng kể trong tương lai. Những cải tiến tiềm năng có thể bao gồm:

  • Độ phân giải đầu ra tăng lên (1080p, 4K)
  • Tích hợp âm thanh
  • Các tùy chọn tùy chỉnh mở rộng hơn (tỷ lệ khung hình, tài liệu tham khảo về kiểu dáng)
  • Các công cụ kỹ thuật nhắc nhở được cải thiện
  • Thông tin rõ ràng hơn về giới hạn tạo
  • Công nghệ hình mờ SynthID nâng cao

Veo 2 trong bối cảnh rộng lớn hơn của tạo video AI

Để thực sự hiểu được vị thế của Veo 2 trên thị trường, điều quan trọng là phải so sánh nó với các nền tảng tạo video AI hàng đầu khác. Mặc dù mỗi nền tảng đều có những điểm mạnh và điểm yếu riêng, nhưng việc hiểu rõ những khác biệt này có thể giúp người dùng đưa ra quyết định sáng suốt về công cụ nào phù hợp nhất với nhu cầu của họ.

Sora của OpenAI

Sora của OpenAI có lẽ là nền tảng tạo video AI được thổi phồng nhất hiện có. Những điểm mạnh chính của nó bao gồm:

  • Đầu ra chất lượng cao: Sora có khả năng tạo video ở độ phân giải 1080p với độ trung thực hình ảnh ấn tượng.
  • Chuyển động thực tế: Sora vượt trội trong việc tạo ra chuyển động trông thực tế và tự nhiên, điều này rất quan trọng để tạo ra các cảnh правдоподобные.
  • Tạo cảnh phức tạp: Sora có thể tạo video với các chi tiết phức tạp và các tương tác phức tạp giữa các đối tượng và nhân vật.
  • Văn bản thành video và hình ảnh thành video: Sora hỗ trợ cả lời nhắc văn bản và hình ảnh, cung cấp cho người dùng mức độ linh hoạt cao.

Tuy nhiên, Sora cũng có những hạn chế:

  • Khả năng tiếp cận hạn chế: Sora hiện chỉ có sẵn cho một nhóm chọn lọc các nhà nghiên cứu và nghệ sĩ.
  • Chi phí tính toán cao: Tạo video với Sora đòi hỏi tài nguyên tính toán đáng kể, điều này có thể dẫn đến chi phí sử dụng cao trong tương lai.
  • Khả năng lạm dụng: Khả năng tạo video do AI tạo ra có độ chân thực cao làm dấy lên lo ngại về khả năng lạm dụng, chẳng hạn như tạo deepfake.

Firefly của Adobe

Firefly của Adobe là một đối thủ lớn khác trong lĩnh vực tạo video AI. Những điểm mạnh chính của nó bao gồm:

  • Tích hợp với Adobe Creative Suite: Firefly được tích hợp liền mạch với các công cụ sáng tạo phổ biến của Adobe, chẳng hạn như Photoshop và Premiere Pro, giúp người dùng dễ dàng kết hợp nội dung do AI tạo ra vào quy trình làm việc hiện có của họ.
  • Tập trung vào sử dụng thương mại: Adobe đặc biệt nhắm mục tiêu Firefly vào người dùng thương mại, cung cấp các tính năng như cấp phép nội dung và bảo vệ bản quyền.
  • Bộ dữ liệu đào tạo lớn: Firefly được đào tạo trên một bộ dữ liệu khổng lồ gồm hình ảnh Adobe Stock, đảm bảo đầu ra chất lượng cao và giảm nguy cơ tạo ra tài liệu có bản quyền.

Tuy nhiên, Firefly cũng có những hạn chế:

  • Khả năng tạo video hạn chế: Mặc dù Firefly rất tuyệt vời để tạo hình ảnh và họa tiết, nhưng khả năng tạo video của nó hiện kém tiên tiến hơn so với Sora.
  • Giá dựa trên đăng ký: Truy cập vào Firefly yêu cầu đăng ký Adobe Creative Cloud, có thể tốn kém đối với một số người dùng.
  • Phụ thuộc vào hệ sinh thái Adobe: Người dùng chưa quen thuộc với các công cụ sáng tạo của Adobe có thể thấy khó tích hợp Firefly vào quy trình làm việc của họ.

Các nền tảng mới nổi khác

Ngoài Sora và Firefly, một số nền tảng tạo video AI khác đang nổi lên, mỗi nền tảng có các tính năng và khả năng độc đáo riêng. Các nền tảng này bao gồm:

  • RunwayML: RunwayML cung cấp một bộ công cụ AI cho các chuyên gia sáng tạo, bao gồm tạo video, chỉnh sửa hình ảnh và chuyển đổi kiểu dáng.
  • Synthesia: Synthesia tập trung vào việc tạo ra các hình đại diện do AI tạo ra và người thuyết trình ảo cho các video đào tạo và tiếp thị của công ty.
  • Pictory: Pictory chuyên chuyển đổi các bài đăng và bài viết trên blog thành các video hấp dẫn cho phương tiện truyền thông xã hội.

Tương lai của việc tạo video AI

Lĩnh vực tạo video AI đang phát triển nhanh chóng và có khả năng chúng ta sẽ thấy những tiến bộ đáng kể trong những năm tới. Một số xu hướng tiềm năng trong tương lai bao gồm:

  • Độ phân giải và chất lượng cao hơn: Các nền tảng tạo video AI sẽ tiếp tục cải thiện độ phân giải và độ trung thực hình ảnh của đầu ra, cuối cùng đạt đến điểm mà khó có thể phân biệt được video do AI tạo ra với video do con người tạo ra.
  • Chuyển động và vật lý thực tế hơn: AI sẽ trở nên tốt hơn trong việc mô phỏng chuyển động và vật lý thực tế, làm cho video do AI tạo ra trở nên đáng tin hơn và hấp dẫn hơn.
  • Kiểm soát và tùy chỉnh được cải thiện: Người dùng sẽ có nhiều quyền kiểm soát hơn đối với quy trình sáng tạo, với khả năng chỉ định các chi tiết như góc máy quay, ánh sáng và cảm xúc của nhân vật.
  • Tích hợp với các công nghệ AI khác: Tạo video AI sẽ được tích hợp với các công nghệ AI khác, chẳng hạn như xử lý ngôn ngữ tự nhiên và thị giác máy tính, cho phép các ứng dụng mới và sáng tạo.
  • Dân chủ hóa việc tạo video: Tạo video AI sẽ giúp mọi người dễ dàng và giá cả phải chăng hơn để tạo video chất lượng cao, bất kể kỹ năng kỹ thuật hoặc ngân sách của họ.

Mặc dù Veo 2 của Google có thể không phải là nền tảng tạo video AI ấn tượng nhất trên thị trường hiện nay, nhưng nó đại diện cho một bước tiến quan trọng trong việc dân chủ hóa công nghệ AI. Khi lĩnh vực này tiếp tục phát triển, có khả năng chúng ta sẽ thấy nhiều công cụ mạnh mẽ và dễ tiếp cận hơn xuất hiện, trao quyền cho những người sáng tạo thuộc mọi loại để biến tầm nhìn của họ thành hiện thực.