So sánh DeepSeek và Gemini 2.5 qua 9 thử thách

Bối cảnh trí tuệ nhân tạo đang phát triển với tốc độ chóng mặt, với các mô hình và khả năng mới xuất hiện dường như chỉ sau một đêm. Trong số những gã khổng lồ của ngành, Google gần đây đã gây chú ý khi cung cấp miễn phí mô hình Gemini 2.5 tinh vi của mình cho công chúng, một sự thay đổi đáng kể so với việc trước đây chỉ có sẵn thông qua đăng ký trả phí. Động thái này đã định vị Gemini 2.5, được ca ngợi về khả năng lý luận nâng cao, năng lực lập trình và các chức năng đa phương thức, như một đối thủ cạnh tranh trực tiếp trong không gian AI dễ tiếp cận. Các tiêu chuẩn đánh giá của chính Google cho thấy hiệu suất ấn tượng, đặc biệt là trong các đánh giá dựa trên kiến thức phức tạp, định vị nó như một công cụ đáng gờm.

Tuy nhiên, trong đấu trường năng động của các so sánh AI, kỳ vọng không phải lúc nào cũng phù hợp với kết quả. Một loạt các thử nghiệm trước đó đã bất ngờ vinh danh DeepSeek, một cái tên ít được công nhận trên toàn cầu, là một đối thủ có năng lực đáng kể trong các nhiệm vụ khác nhau. Câu hỏi tự nhiên được đặt ra: sản phẩm miễn phí tiên tiến nhất của Google, Gemini 2.5, sẽ đối đầu như thế nào với nhà vô địch bất ngờ này khi phải đối mặt với cùng một bộ thử thách nghiêm ngặt? Phân tích này đi sâu vào so sánh trực tiếp qua chín thử thách riêng biệt, được thiết kế để thăm dò chiều sâu khả năng của mỗi AI về sáng tạo, lý luận, hiểu biết kỹ thuật và hơn thế nữa, cung cấp một bản tường thuật chi tiết về điểm mạnh và điểm yếu tương ứng của chúng.

Thử thách 1: Sáng tạo một câu chuyện huyền ảo cho trẻ em

Thử nghiệm đầu tiên đi vào lĩnh vực viết sáng tạo, đặc biệt nhắm vào khả năng áp dụng giọng điệu nhẹ nhàng, huyền ảo phù hợp với một câu chuyện kể trước khi đi ngủ cho trẻ em. Yêu cầu là viết đoạn mở đầu của một câu chuyện về một chú robot nhút nhát khám phá lòng dũng cảm trong một khu rừng có các loài động vật biết hát. Nhiệm vụ này không chỉ đánh giá khả năng tạo ngôn ngữ mà còn cả sắc thái cảm xúc, sự nhất quán về giọng điệu và xây dựng thế giới tưởng tượng phù hợp với khán giả nhỏ tuổi.

Gemini 2.5 đã tạo ra một câu chuyện chắc chắn là có năng lực. Nó giới thiệu Bolt, chú robot, và truyền đạt hiệu quả sự lo lắng của cậu. Việc đưa vào các chi tiết môi trường như ‘những cây nấm phát sáng’ và ‘những dòng suối thì thầm’ đã thể hiện khả năng xây dựng thế giới, thêm kết cấu cho cảnh vật. Tuy nhiên, văn xuôi có cảm giác hơi dài dòng và nghiêng về giải thích hơn là mê hoặc. Mặc dù về mặt chức năng là ổn, đoạn văn thiếu một chất thơ nhất định; nhịp điệu cảm thấy mô tả nhiều hơn là âm nhạc, có khả năng bỏ lỡ nhịp điệu nhẹ nhàng lý tưởng cho một câu chuyện trước khi ngủ. Nó thiết lập nhân vật và bối cảnh rõ ràng, nhưng việc thực hiện có cảm giác hơi máy móc hơn là thi vị.

DeepSeek, ngược lại, ngay lập tức đưa người đọc vào một môi trường giàu cảm giác và thấm đẫm âm nhạc hơn. Mô tả về khu rừng của nó sử dụng các phép ẩn dụ và ngôn ngữ gợi lên âm thanh và ánh sáng một cách mơ màng, hoàn toàn phù hợp với giọng điệu huyền ảo được yêu cầu. Bản thân văn xuôi dường như sở hữu một nhịp điệu nhẹ nhàng, khiến nó vốn dĩ phù hợp hơn để đọc to trước khi đi ngủ. Có một sự cộng hưởng cảm xúc trong việc mô tả chú robot nhút nhát trong bối cảnh đầy mê hoặc này, cảm thấy trực quan và hấp dẫn hơn đối với một đứa trẻ. Các lựa chọn ngôn ngữ đã vẽ nên một khung cảnh không chỉ được mô tả mà còn được cảm nhận, thể hiện sự nắm bắt mạnh mẽ hơn về kết cấu không khí và cảm xúc cần thiết.

Kết luận: Với khả năng sử dụng ngôn ngữ thơ ca vượt trội, việc tạo ra một bầu không khí thực sự huyền ảo thông qua các chi tiết cảm giác và ẩn dụ âm nhạc, và nhịp điệu phù hợp với giờ đi ngủ, DeepSeek đã nổi lên như người chiến thắng trong thử thách sáng tạo này. Nó không chỉ kể phần đầu của một câu chuyện; nó tạo ra một lời mời vào một thế giới nhẹ nhàng, kỳ diệu.

Thử thách 2: Cung cấp hướng dẫn thực tế cho nỗi lo lắng phổ biến ở trẻ em

Chuyển từ biểu đạt sáng tạo sang giải quyết vấn đề thực tế, lời nhắc thứ hai đề cập đến một tình huống nuôi dạy con cái phổ biến: giúp một đứa trẻ 10 tuổi vượt qua sự lo lắng khi nói trước lớp. Yêu cầu là đưa ra ba chiến lược khả thi mà cha mẹ có thể dạy con mình để tăng cường sự tự tin. Thử thách này kiểm tra khả năng của AI trong việc cung cấp lời khuyên đồng cảm, phù hợp với lứa tuổi và thực sự hữu ích.

Gemini 2.5 đưa ra các chiến lược về cơ bản là hợp lý và được trình bày một cách logic. Lời khuyên – có thể liên quan đến việc luyện tập, tự nói chuyện tích cực và có lẽ tập trung vào thông điệp – đại diện cho các kỹ thuật tiêu chuẩn, hiệu quả để quản lý nỗi lo lắng khi nói trước đám đông. Một phụ huynh nhận được lời khuyên này sẽ thấy nó hợp lý và đúng đắn. Tuy nhiên, giọng điệu và cách trình bày lại mang đậm chất người lớn. Ngôn ngữ được sử dụng thiếu các yếu tố tưởng tượng hoặc vui tươi thường gây được tiếng vang hiệu quả hơn với một đứa trẻ 10 tuổi. Các chiến lược, mặc dù hợp lệ, được trình bày giống như hướng dẫn hơn là các hoạt động hấp dẫn, có khả năng bỏ lỡ cơ hội làm cho quá trình này bớt khó khăn hơn đối với một đứa trẻ. Sự nhấn mạnh là vào các khía cạnh nhận thức hơn là kết hợp các phương pháp tiếp cận dựa trên xúc giác hoặc hài hước có thể đặc biệt hiệu quả trong việc xoa dịu nỗi sợ hãi ở trẻ em.

DeepSeek đã áp dụng một cách tiếp cận khác biệt đáng kể. Mặc dù các chiến lược được đề xuất của nó cũng thực tế, chúng được đóng khung theo cách phù hợp hơn nhiều với quan điểm của trẻ em. Nó không chỉ liệt kê các kỹ thuật; nó đề xuất cách thực hành chúng theo những cách có thể được coi là vui vẻ hoặc tương tác, biến một nhiệm vụ có khả năng gây căng thẳng thành một thứ gì đó dễ tiếp cận hơn. Ví dụ, nó có thể đề nghị luyện tập trước mặt thú nhồi bông hoặc sử dụng giọng nói hài hước. Quan trọng là, DeepSeek dường như nhắm vào nền tảng cảm xúc cụ thể của nỗi sợ nói trước đám đông của trẻ, thừa nhận sự lo lắng và đưa ra các cơ chế đối phó (như hít thở sâu được trình bày như một trò chơi) cùng với các chiến lược thực hành. Nó bao gồm các mẹo bổ sung tập trung vào các kỹ thuật làm dịu ngay lập tức, thể hiện sự hiểu biết toàn diện hơn về việc quản lý sự lo lắng ở một người trẻ tuổi. Ngôn ngữ mang tính khuyến khích và được điều chỉnh hoàn hảo để phụ huynh truyền đạt cho đứa con 10 tuổi của họ.

Kết luận: DeepSeek đã giành chiến thắng trong vòng này nhờ hướng dẫn sáng tạo, đồng cảm và phù hợp với lứa tuổi hơn. Nó thể hiện khả năng vượt trội trong việc điều chỉnh lời khuyên thực tế cho phù hợp với nhu cầu cảm xúc và nhận thức cụ thể của trẻ, đưa ra các chiến lược không chỉ hiệu quả mà còn được trình bày một cách hấp dẫn và trấn an.

Thử thách 3: Phân tích phong cách lãnh đạo – Mandela vs. Jobs

Thử thách thứ ba chuyển sang lý luận phân tích, yêu cầu so sánh phong cách lãnh đạo của Nelson Mandela và Steve Jobs. Lời nhắc yêu cầu xác định điều gì làm cho mỗi nhà lãnh đạo trở nên hiệu quả và nêu bật những khác biệt chính của họ. Nhiệm vụ này đánh giá khả năng của AI trong việc tổng hợp thông tin về các nhân vật phức tạp, đưa ra các so sánh tinh tế, xác định các thuộc tính cốt lõi và trình bày rõ ràng phân tích của mình.

Gemini 2.5 đã đưa ra một phản hồi có cấu trúc tốt, toàn diện và chính xác về mặt thực tế, giống như một mục được viết tốt trong sách giáo khoa kinh doanh hoặc một báo cáo học đường kỹ lưỡng. Nó xác định chính xác các khía cạnh chính trong phong cách của mỗi nhà lãnh đạo, có khả năng tham chiếu các khái niệm như lãnh đạo phục vụ của Mandela và cách tiếp cận có tầm nhìn, đôi khi đòi hỏi khắt khe của Jobs. Việc sử dụng các tiêu đề rõ ràng như ‘Hiệu quả’ và ‘Khác biệt chính’ đã hỗ trợ việc tổ chức và khả năng đọc. Tuy nhiên, phân tích, mặc dù đúng, có cảm giác hơi khô khan và thiếu một lớp diễn giải sâu sắc hơn. Nó định nghĩa và mô tả các đặc điểm lãnh đạo nhưng đưa ra ít cái nhìn sâu sắc hơn về tác động hoặc sự cộng hưởng của những phong cách này ngoài mức độ bề mặt. Giọng điệu mang tính thông tin nhưng thiếu sức thuyết phục hoặc chiều sâu cảm xúc mà một sự so sánh sâu sắc hơn có thể đạt được.

DeepSeek tiếp cận sự so sánh với mức độ tinh tế phân tích và sự tinh tế trong tường thuật cao hơn. Nó cấu trúc phân tích của mình theo các khía cạnh cụ thể, sâu sắc – chẳng hạn như tầm nhìn, phản ứng với nghịch cảnh, phong cách giao tiếp, quy trình ra quyết định và di sản – cho phép so sánh chi tiết và trực tiếp hơn trên các khía cạnh liên quan của lãnh đạo. Khuôn khổ này cung cấp sự rõ ràng và chiều sâu đồng thời. Quan trọng là, DeepSeek đã cố gắng cân bằng sự ngưỡng mộ đối với cả hai nhân vật với một góc nhìn phê phán, tránh sự ca tụng đơn giản. Ngôn ngữ được sử dụng gợi cảm và mang tính diễn giải hơn, nhằm mục đích không chỉ mô tả mà còn làm sáng tỏ bản chất của các cách tiếp cận và tác động khác nhau của họ. Nó truyền tải không chỉ sự thật mà còn cả cảm giác về kịch tính của con người và ý nghĩa lịch sử liên quan, làm cho sự so sánh trở nên đáng nhớ và hấp dẫn hơn.

Kết luận: Với cấu trúc phân tích vượt trội, cái nhìn sâu sắc diễn giải sâu sắc hơn, phong cách tường thuật hấp dẫn hơn và khả năng truyền tải sự cộng hưởng cảm xúc và lịch sử cùng với so sánh thực tế, DeepSeek đã chiến thắng thử thách này. Nó đã vượt ra ngoài mô tả đơn thuần để cung cấp một sự hiểu biết sâu sắc hơn về hai mô hình lãnh đạo khác biệt.

Thử thách 4: Giải thích công nghệ phức tạp – Trường hợp của Blockchain

Nhiệm vụ thứ tư kiểm tra khả năng làm sáng tỏ một chủ đề kỹ thuật phức tạp: blockchain. Lời nhắc yêu cầu một lời giải thích đơn giản về cách blockchain hoạt động, sau đó là giải thích về ứng dụng tiềm năng của nó trong việc theo dõi chuỗi cung ứng. Điều này đánh giá sự rõ ràng, việc sử dụng hiệu quả phép loại suy và khả năng kết nối các khái niệm trừu tượng với các ứng dụng cụ thể, thực tế.

Gemini 2.5 đã sử dụng phép ẩn dụ về sổ ghi chép kỹ thuật số để giải thích khái niệm blockchain, đây là một điểm khởi đầu tiềm năng hữu ích. Lời giải thích của nó chính xác và bao gồm các yếu tố thiết yếu của sổ cái phân tán và liên kết mật mã. Tuy nhiên, lời giải thích có xu hướng sử dụng các câu dài hơn và giọng điệu trang trọng, giống sách giáo khoa hơn, điều này vẫn có thể cảm thấy hơi dày đặc hoặc nặng nề đối với người mới bắt đầu thực sự. Khi thảo luận về ứng dụng chuỗi cung ứng, nó cung cấp các ví dụ hợp lệ như theo dõi cà phê hoặc thuốc men, nhưng mô tả vẫn tương đối ở mức độ cao và mang tính khái niệm, có lẽ không truyền tải đầy đủ các lợi ích hữu hình hoặc khía cạnh ‘cách thực hiện’ một cách sinh động. Lời giải thích là chính xác nhưng kém hấp dẫn hơn mức có thể.

DeepSeek, ngược lại, đã giải quyết lời giải thích với nhiều sức sống và kỹ năng sư phạm hơn. Nó sử dụng các phép ẩn dụ rõ ràng, mạnh mẽ, có vẻ trực quan hơn và dễ tiếp cận ngay lập tức đối với khán giả không chuyên về kỹ thuật, nhanh chóng loại bỏ biệt ngữ. Bản thân lời giải thích về blockchain được chia thành các bước dễ hiểu, duy trì độ chính xác mà không đơn giản hóa quá mức đến mức mất đi ý nghĩa. Quan trọng là, khi giải thích ứng dụng chuỗi cung ứng, DeepSeek đã cung cấp các ví dụ hấp dẫn, cụ thể giúp khái niệm trở nên sống động. Nó vẽ nên một bức tranh rõ ràng hơn về cách theo dõi các mặt hàng trên blockchain mang lại lợi ích như tính minh bạch và bảo mật, làm cho công nghệ cảm thấy hữu ích và phù hợp thay vì chỉ phức tạp. Giọng điệu tổng thể tràn đầy năng lượng và minh họa hơn.

Kết luận: DeepSeek đã giành chiến thắng trong vòng này bằng cách cung cấp một lời giải thích hấp dẫn, minh họa và thân thiện với người mới bắt đầu hơn. Việc sử dụng vượt trội các phép ẩn dụ và cách kể chuyện cụ thể đã làm cho chủ đề phức tạp của blockchain trở nên dễ tiếp cận hơn đáng kể và các ứng dụng thực tế của nó dễ nắm bắt hơn.

Thử thách 5: Điều hướng các sắc thái của dịch thơ

Thử thách này đi sâu vào sự tinh tế của ngôn ngữ và văn hóa, yêu cầu dịch câu thơ của Emily Dickinson, ‘Hope is the thing with feathers that perches in the soul,’ sang tiếng Pháp, tiếng Nhật và tiếng Ả Rập. Quan trọng là, nó cũng yêu cầu giải thích những thách thức thơ ca gặp phải trong mỗi bản dịch. Điều này không chỉ kiểm tra khả năng dịch đa ngôn ngữ mà còn cả sự nhạy cảm văn học và hiểu biết đa văn hóa.

Gemini 2.5 đã cung cấp các bản dịch chính xác của cụm từ sang các ngôn ngữ được yêu cầu. Các giải thích đi kèm của nó tập trung nhiều vào cấu trúc ngữ pháp, những thay đổi tiềm ẩn về nghĩa đen và các khía cạnh như phát âm hoặc lựa chọn từ ngữ từ quan điểm ngôn ngữ học. Nó cung cấp các phân tích chi tiết hữu ích cho những người đang nghiên cứu chính các ngôn ngữ đó. Tuy nhiên, phản hồi có cảm giác giống như một bài tập hướng dẫn ngôn ngữ kỹ thuật hơn là khám phá nghệ thuật thơ ca. Nó giải quyết hiệu quả cơ chế dịch thuật nhưng ít nhấn mạnh hơn đến sự mất mát hoặc biến đổi cảm giác, sự cộng hưởng văn hóa hoặc chất lượng thơ độc đáo của phép ẩn dụ gốc qua các bối cảnh ngôn ngữ và văn hóa khác nhau. Trọng tâm mang tính cơ học hơn là trữ tình.

DeepSeek cũng cung cấp các bản dịch chính xác nhưng xuất sắc trong việc giải quyết phần thứ hai, tinh tế hơn của lời nhắc. Lời giải thích của nó đi sâu hơn vào những thách thức cố hữu của việc dịch thơ, thảo luận về cách các hàm ý cụ thể của ‘feathers,’ ‘perches,’ và ‘soul’ có thể không có từ tương đương trực tiếp hoặc có thể mang trọng lượng văn hóa khác nhau trong tiếng Pháp, tiếng Nhật và tiếng Ả Rập. Nó khám phá sự mất mát tiềm ẩn của hình ảnh ẩn dụ cụ thể của Dickinson và những khó khăn trong việc tái tạo giọng điệu tinh tế và nhịp điệu của bản gốc. Phân tích của DeepSeek đề cập đến các điểm triết học và văn hóa liên quan đến khái niệm hy vọng trong mỗi bối cảnh, cung cấp một bình luận phong phú, sâu sắc hơn về những khó khăn thơ ca, không chỉ là những khó khăn về ngôn ngữ. Nó kết thúc bằng một bản tóm tắt sâu sắc nhấn mạnh sự phức tạp liên quan.

Kết luận: Do cái nhìn sâu sắc về văn học sâu sắc hơn, sự nhạy cảm văn hóa lớn hơn trong việc giải thích các thách thức dịch thuật và trọng tâm phù hợp hơn với yêu cầu của lời nhắc về việc khám phá ‘những thách thức thơ ca’, DeepSeek đã chiến thắng vòng này. Nó thể hiện sự đánh giá cao hơn đối với nghệ thuật và sự tinh tế liên quan đến việc dịch ngôn ngữ ẩn dụ qua các nền văn hóa.

Thử thách 6: Tạo và giải thích mã Python cho số nguyên tố

Thử thách thứ sáu đi vào lĩnh vực lập trình, yêu cầu tạo ra một hàm Python để xác định các số nguyên tố trong một danh sách. Quan trọng không kém là yêu cầu giải thích đơn giản về cách hàm hoạt động. Điều này kiểm tra trình độ lập trình, tuân thủ các phương pháp hay nhất và khả năng giải thích logic kỹ thuật một cách rõ ràng cho người không phải là lập trình viên.

DeepSeek đã tạo ra một tập lệnh Python chức năng xác định chính xác các số nguyên tố. Lời giải thích đi kèm của nó được cấu trúc với các tiêu đề phần và chú thích rõ ràng, giới thiệu các khái niệm một cách logic. Nó đã giải thích lý do tại sao các số nhỏ hơn 2 bị bỏ qua, một sự làm rõ hữu ích cho người mới bắt đầu. Bản thân mã rất rõ ràng và lời giải thích từng bước nhằm mục đích dễ tiếp cận, chia nhỏ logic kiểm tra các ước số. Đó là một phản hồi vững chắc và có năng lực, đáp ứng tất cả các khía cạnh của lời nhắc.

Gemini 2.5, tuy nhiên, đã tạo nên sự khác biệt về độ rõ ràng và chất lượng sư phạm trong lời giải thích của mình. Mặc dù cũng cung cấp mã Python chính xác và hiệu quả, lời giải thích của nó lại áp dụng một giọng điệu đặc biệt kiên nhẫn, gần giống như hướng dẫn. Nó tỉ mỉ đi qua logic, làm cho ngay cả những khái niệm có khả năng gây nhầm lẫn, như tối ưu hóa việc chỉ kiểm tra các ước số cho đến căn bậc hai của một số, cảm thấy trực quan và dễ hiểu đối với người mới làm quen với lập trình hoặc lý thuyết số. Cấu trúc rõ ràng và ngôn ngữ đặc biệt phù hợp với người mới bắt đầu muốn thực sự hiểu tại sao mã hoạt động, chứ không chỉ rằng nó hoạt động. Bản chất toàn diện nhưng dễ tiếp cận của lời giải thích đã mang lại cho nó lợi thế.

Kết luận: Trong một sự đảo ngược xu hướng phổ biến, Gemini 2.5 đã giành chiến thắng trong thử thách này. Mặc dù cả hai AI đều tạo ra mã chính xác và cung cấp giải thích, lời giải thích của Gemini được đánh giá là vượt trội về độ rõ ràng đặc biệt, thân thiện với người mới bắt đầu và giọng điệu sư phạm kiên nhẫn giúp logic phức tạp trở nên dễ tiếp cận đáng kể.

Thử thách 7: Khám phá các vùng xám đạo đức – Sự biện minh cho một lời nói dối

Quay trở lại lý luận trừu tượng hơn, lời nhắc thứ bảy giải quyết một câu hỏi về đạo đức: ‘Có bao giờ nói dối là có đạo đức không?’ Nó yêu cầu một ví dụ về trường hợp nói dối có thể được biện minh về mặt đạo đức, cùng với lý do đằng sau sự biện minh đó. Điều này thăm dò khả năng lý luận đạo đức, lập luận tinh tế và việc sử dụng các ví dụ thuyết phục để hỗ trợ một lập trường đạo đức của AI.

Gemini 2.5 đã giải quyết câu hỏi bằng cách tham chiếu các khái niệm đạo đức có liên quan, có khả năng đề cập đến các khuôn khổ như chủ nghĩa hệ quả (đánh giá hành động dựa trên kết quả của chúng) so với đạo đức học nghĩa vụ (tuân theo các nghĩa vụ hoặc quy tắc đạo đức). Cách tiếp cận của nó nghiêng về lý thuyết, cung cấp một cuộc thảo luận hợp lý, nếu có phần học thuật, về lý do tại sao nói dối nói chung là sai nhưng có thể được phép trong một số tình huống nhất định. Tuy nhiên, ví dụ mà nó cung cấp để minh họa một lời nói dối chính đáng được mô tả là hư cấu và chỉ có tác động vừa phải. Mặc dù mạch lạc về mặt logic, nó thiếu sức nặng cảm xúc hoặc sức thuyết phục mà một ví dụ mạnh mẽ hơn có thể mang lại.

DeepSeek, hoàn toàn trái ngược, đã sử dụng một tình huống khó xử đạo đức kinh điển và mạnh mẽ trong thế giới thực: kịch bản nói dối chính quyền Nazi trong Thế chiến II để bảo vệ những người tị nạn Do Thái ẩn náu trong nhà mình. Ví dụ này ngay lập tức dễ nhận biết, đầy cảm xúc và trình bày một cuộc xung đột rõ ràng giữa nghĩa vụ nói sự thật và mệnh lệnh đạo đức cao hơn là cứu mạng người vô tội. Việc sử dụng bối cảnh lịch sử cụ thể, có tính rủi ro cao này đã củng cố đáng kể lập luận cho lời nói dối chính đáng. Nó gây được tiếng vang ở cả cấp độ đạo đức và cảm xúc, làm cho sự biện minh trở nên thuyết phục và đáng nhớ hơn nhiều. DeepSeek đã kết nối hiệu quả nguyên tắc đạo đức trừu tượng với một tình huống cụ thể nơi phép tính đạo đức nghiêng hẳn về phía lừa dối vì lợi ích lớn hơn.

Kết luận: DeepSeek đã chiến thắng vòng này một cách thuyết phục. Việc sử dụng một ví dụ mạnh mẽ, có cơ sở lịch sử và gây tiếng vang về mặt cảm xúc đã làm cho lập luận của nó trở nên thuyết phục và hấp dẫn về mặt đạo đức hơn đáng kể so với cách tiếp cận lý thuyết hơn và ít tác động hơn của Gemini. Nó thể hiện khả năng chỉ huy mạnh mẽ hơn trong việc sử dụng các kịch bản minh họa để khám phá lý luận đạo đức phức tạp.

Thử thách 8: Hình dung một đô thị tương lai – Thử nghiệm sức mạnh mô tả

Thử thách áp chót khai thác trí tưởng tượng hình ảnh và văn bản mô tả. Lời nhắc yêu cầu mô tả một thành phố tương lai sau 150 năm nữa, tập trung vào giao thông, liên lạc và sự tích hợp của thiên nhiên, tất cả được truyền đạt bằng ngôn ngữ sống động. Điều này kiểm tra sự sáng tạo, sự mạch lạc trong xây dựng thế giới và khả năng vẽ nên một bức tranh hấp dẫn bằng lời nói.

Gemini 2.5 đã tạo ra một phản hồi chi tiết, đề cập đến các yếu tố được yêu cầu về giao thông, liên lạc và thiên nhiên trong thành phố tương lai. Nó bao gồm nhiều khái niệm tương lai khác nhau. Tuy nhiên, mô tả tổng thể có cảm giác hơi chung chung, dựa vào các mô típ khoa học viễn tưởng phổ biến mà không nhất thiết tạo ra một tầm nhìn thực sự độc đáo hoặc đáng nhớ. Cấu trúc kém tổ chức hơn so với đối thủ cạnh tranh của nó, và ngôn ngữ đôi khi đi vào cách diễn đạt quá dày đặc hoặc hoa mỹ (‘overwrought’), điều này có thể làm giảm sự rõ ràng và sự tham gia của người đọc thay vì tăng cường hình ảnh. Mặc dù các thành phần đều có mặt, tấm thảm tổng thể cảm thấy kém gắn kết và khác biệt về mặt hình ảnh.

DeepSeek, mặt khác, đã tạo ra một tầm nhìn có cảm giác điện ảnh và đa giác quan hơn. Nó sử dụng hình ảnh cụ thể, độc đáo để mô tả giao thông tương lai (có lẽ là các khoang từ tính im lặng, phương tiện bay cá nhân), liên lạc (giao diện ba chiều được tích hợp liền mạch) và thiên nhiên (rừng thẳng đứng, công viên phát quang sinh học). Các mô tả được đặc trưng là vui tươi nhưng có cơ sở, gợi ý về một tương lai công nghệ tiên tiến nhưng cũng được xem xét về mặt thẩm mỹ và có lẽ gây được tiếng vang về mặt cảm xúc. Cấu trúc rõ ràng, hướng dẫn người đọc qua các khía cạnh khác nhau của thành phố một cách có tổ chức. Ngôn ngữ đạt được sự cân bằng tốt hơn giữa mô tả giàu trí tưởng tượng và sự rõ ràng, tạo ra một tương lai vừa tuyệt đẹp vừa có phần hợp lý hoặc ít nhất là được hình thành một cách sống động.

Kết luận: DeepSeek đã chiến thắng trong thử thách này vì đã mang đến một tầm nhìn cân bằng hơn, được viết đẹp mắt, có cấu trúc rõ ràng và khác biệt về mặt tưởng tượng về thành phố tương lai. Khả năng tạo ra hình ảnh đa giác quan, độc đáo trong khi duy trì sự mạch lạc đã mang lại cho phản hồi của nó sức mạnh mô tả và sự cộng hưởng cảm xúc vượt trội.

Thử thách 9: Làm chủ việc tóm tắt và thích ứng giọng điệu

Thử thách cuối cùng kiểm tra hai kỹ năng riêng biệt nhưng có liên quan: tóm tắt một văn bản lịch sử quan trọng (Diễn văn Gettysburg) một cách ngắn gọn (trong ba câu) và sau đó viết lại bản tóm tắt đó bằng một giọng điệu hoàn toàn khác, được chỉ định (giọng của một tên cướp biển). Điều này đánh giá khả năng hiểu, chắt lọc các ý tưởng cốt lõi và sự linh hoạt sáng tạo trong việc áp dụng một giọng nói khác biệt.

Gemini 2.5 đã thực hiện thành công cả hai phần của nhiệm vụ. Nó tạo ra một bản tóm tắt Diễn văn Gettysburg nắm bắt chính xác các điểm chính liên quan đến bình đẳng, mục đích của Nội chiến (Civil War) và lời kêu gọi cống hiến cho dân chủ. Bản viết lại theo kiểu cướp biển cũng tuân theo hướng dẫn, áp dụng từ vựng và cách diễn đạt giống cướp biển (‘Ahoy,’ ‘mateys,’ v.v.) để truyền đạt nội dung của bản tóm tắt. Phản hồi có năng lực và đáp ứng đúng nghĩa các yêu cầu của lời nhắc. Tuy nhiên, bản tóm tắt, mặc dù chính xác, có lẽ thiếu một sức nặng hùng biện hoặc chiều sâu cảm xúc nhất định để nắm bắt được tác động sâu sắc của Diễn văn. Phiên bản cướp biển có cảm giác hơi công thức, chạm vào các mô típ cướp biển mà không nhất thiết đạt được sự hài hước hoặc cá tính thực sự.

DeepSeek cũng cung cấp một bản tóm tắt ba câu chính xác của Diễn văn Gettysburg, nhưng bản tóm tắt của nó được ghi nhận là đặc biệt sâu sắc, nắm bắt không chỉ nội dung thực tế mà còn cả giọng điệu cảm xúc và ý nghĩa lịch sử của những lời của Lincoln một cách hiệu quả hơn. Tuy nhiên, nơi DeepSeek thực sự tỏa sáng là ở bản viết lại theo kiểu cướp biển. Nó không chỉ rắc biệt ngữ cướp biển vào bản tóm tắt; nó dường như hoàn toàn nhập vai vào nhân vật, tạo ra một phiên bản được mô tả là thực sự hài hước, táo bạo và giàu trí tưởng tượng. Ngôn ngữ có cảm giác tự nhiên giống cướp biển hơn, thấm đẫm năng lượng vui tươi và cá tính, làm cho sự thay đổi giọng điệu trở nên thuyết phục và giải trí hơn.

Kết luận: DeepSeek đã chiến thắng vòng cuối cùng, xuất sắc trong cả hai khía cạnh của thử thách. Bản tóm tắt của nó được đánh giá là sâu sắc hơn, và bản viết lại theo phong cách cướp biển của nó thể hiện sự sáng tạo, hài hước và khả năng làm chủ việc thích ứng giọng điệu vượt trội, làm cho nó táo bạo và giàu trí tưởng tượng hơn so với bản trình bày của đối thủ cạnh tranh.