تحلیل مقایسه‌ای: DeepSeek در برابر Gemini 2.5 در ۹ چالش

چشم‌انداز هوش مصنوعی با سرعتی سرسام‌آور در حال تحول است و مدل‌ها و قابلیت‌های جدید ظاهراً یک شبه ظهور می‌کنند. در میان غول‌های این صنعت، Google اخیراً با ارائه رایگان مدل پیشرفته Gemini 2.5 خود به عموم، موجی ایجاد کرد؛ تغییری قابل توجه نسبت به در دسترس بودن قبلی آن تنها از طریق اشتراک ویژه. این اقدام، Gemini 2.5 را که به دلیل استدلال پیشرفته، مهارت کدنویسی و قابلیت‌های چندوجهی‌اش مورد ستایش قرار گرفته بود، به عنوان یک رقیب مستقیم در فضای هوش مصنوعی در دسترس قرار داد. معیارهای خود Google عملکرد چشمگیری را نشان می‌داد، به ویژه در ارزیابی‌های پیچیده مبتنی بر دانش، و آن را به عنوان ابزاری قدرتمند معرفی می‌کرد.

با این حال، در عرصه پویای مقایسه‌های هوش مصنوعی، انتظارات همیشه با نتایج همسو نیستند. مجموعه‌ای از آزمایش‌های قبلی به طور شگفت‌انگیزی DeepSeek، نامی کمتر شناخته شده در سطح جهانی، را به عنوان یک اجراکننده فوق‌العاده توانا در وظایف مختلف معرفی کرده بود. سوال طبیعی این بود: پیشرفته‌ترین پیشنهاد رایگان Google، یعنی Gemini 2.5، در برابر این قهرمان غیرمنتظره، هنگامی که تحت همان مجموعه دقیق درخواست‌ها قرار می‌گیرد، چگونه عمل خواهد کرد؟ این تحلیل به مقایسه رو در رو در ۹ چالش متمایز می‌پردازد که برای بررسی عمیق توانایی‌های هر هوش مصنوعی در خلاقیت، استدلال، درک فنی و موارد دیگر طراحی شده‌اند و گزارشی دقیق از نقاط قوت و ضعف مربوطه آن‌ها ارائه می‌دهد.

چالش ۱: ساختن روایتی خیال‌انگیز برای کودکان

اولین آزمون وارد حوزه نویسندگی خلاق شد، به ویژه توانایی اتخاذ لحنی ملایم و خیال‌انگیز مناسب برای داستان شب کودکان را هدف قرار داد. درخواست، پاراگراف آغازین داستانی درباره یک ربات مضطرب بود که در جنگلی پر از حیوانات آوازخوان، شجاعت را کشف می‌کند. این وظیفه نه تنها تولید زبان، بلکه ظرافت عاطفی، ثبات لحن و جهان‌سازی تخیلی متناسب با مخاطب جوان را ارزیابی می‌کند.

Gemini 2.5 روایتی تولید کرد که قطعاً شایسته بود. Bolt، ربات، را معرفی کرد و اضطراب او را به طور مؤثری منتقل کرد. گنجاندن جزئیات محیطی مانند ‘قارچ‌های درخشان’ و ‘نهرهای نجواگر’ ظرفیتی برای جهان‌سازی را نشان داد و به صحنه بافت افزود. با این حال، نثر تا حدودی طولانی به نظر می‌رسید و بیشتر به سمت توضیح تمایل داشت تا افسونگری. در حالی که از نظر عملکردی سالم بود، پاراگراف فاقد کیفیت تغزلی خاصی بود؛ ریتم آن بیشتر توصیفی بود تا موسیقایی، و به طور بالقوه آهنگ آرامش‌بخش ایده‌آل برای داستان قبل از خواب را از دست داده بود. شخصیت و محیط را به وضوح مشخص کرد، اما اجرا کمی رویه‌ای‌تر از شاعرانه به نظر می‌رسید.

DeepSeek، در مقابل، بلافاصله خواننده را در محیطی غنی‌تر از نظر حسی و آغشته به موسیقی غرق کرد. توصیف آن از جنگل از استعاره‌ها و زبانی استفاده می‌کرد که صدا و نور را به شیوه‌ای رؤیایی تداعی می‌کرد و کاملاً با لحن خیال‌انگیز درخواستی همسو بود. به نظر می‌رسید خود نثر دارای ریتم ملایمی است که ذاتاً آن را برای خواندن با صدای بلند در زمان خواب مناسب‌تر می‌کرد. در تصویر آن از ربات مضطرب در این محیط دلربا، طنین عاطفی وجود داشت که برای یک کودک شهودی‌تر و جذاب‌تر به نظر می‌رسید. انتخاب‌های زبانی صحنه‌ای را ترسیم می‌کرد که نه تنها توصیف شده بود، بلکه احساس می‌شد و درک قوی‌تری از بافت جوی و عاطفی مورد نیاز را نشان می‌داد.

نتیجه: به دلیل تسلط برتر بر زبان شاعرانه، ایجاد فضایی واقعاً خیال‌انگیز از طریق جزئیات حسی و استعاره‌های موسیقایی، و ریتم مناسب برای زمان خواب، DeepSeek در این چالش خلاقانه برنده شد. این فقط آغاز یک داستان را بیان نکرد؛ بلکه دعوتی به دنیایی ملایم و جادویی ساخت.

چالش ۲: ارائه راهنمایی عملی برای یک اضطراب رایج دوران کودکی

با حرکت از بیان خلاق به حل مسئله عملی، درخواست دوم به یک سناریوی رایج والدین پرداخت: کمک به یک کودک ۱۰ ساله برای غلبه بر اضطراب صحبت کردن در مقابل کلاس. درخواست شامل سه استراتژی عملی بود که والدین می‌توانستند برای افزایش اعتماد به نفس به فرزندشان آموزش دهند. این چالش توانایی هوش مصنوعی در ارائه توصیه‌های همدلانه، متناسب با سن و واقعاً مفید را آزمایش می‌کند.

Gemini 2.5 استراتژی‌هایی را ارائه داد که اساساً درست و به طور منطقی ارائه شده بودند. این توصیه‌ها - که احتمالاً شامل تمرین، گفتگوی مثبت با خود و شاید تمرکز بر پیام بود - تکنیک‌های استاندارد و مؤثری برای مدیریت اضطراب سخنرانی عمومی را نشان می‌داد. والدینی که این توصیه را دریافت می‌کردند، آن را معقول و صحیح می‌یافتند. با این حال، لحن و ارائه به طور مشخص بزرگسال‌محور بود. زبان مورد استفاده فاقد عناصر تخیلی یا بازیگوشانه‌ای بود که اغلب به طور مؤثرتری با یک کودک ۱۰ ساله ارتباط برقرار می‌کند. استراتژی‌ها، در حالی که معتبر بودند، بیشتر به عنوان دستورالعمل ارائه شدند تا فعالیت‌های جذاب، و به طور بالقوه فرصتی را برای کمتر دلهره‌آور کردن فرآیند برای کودک از دست دادند. تأکید بیشتر بر جنبه‌های شناختی بود تا ترکیب رویکردهای لمسی یا مبتنی بر طنز که می‌توانند در کاهش ترس‌های دوران کودکی بسیار مؤثر باشند.

DeepSeek رویکرد قابل توجهی متفاوتی را اتخاذ کرد. در حالی که استراتژی‌های پیشنهادی آن نیز عملی بودند، به شیوه‌ای بسیار متناسب‌تر با دیدگاه کودک چارچوب‌بندی شده بودند. این فقط تکنیک‌ها را فهرست نکرد؛ بلکه پیشنهاد داد چگونه آن‌ها را به روش‌هایی تمرین کنیم که می‌توانست سرگرم‌کننده یا تعاملی تلقی شود و یک کار بالقوه استرس‌زا را به چیزی قابل دسترس‌تر تبدیل کند. به عنوان مثال، ممکن است پیشنهاد کند جلوی حیوانات عروسکی تمرین کنید یا از صداهای خنده‌دار استفاده کنید. نکته مهم این است که به نظر می‌رسید DeepSeek زیربناهای عاطفی خاص ترس کودک از سخنرانی عمومی را هدف قرار داده است، اضطراب را تصدیق کرده و مکانیسم‌های مقابله‌ای (مانند نفس‌های عمیق ارائه شده به عنوان یک بازی) را در کنار استراتژی‌های تمرین ارائه می‌دهد. این شامل نکات اضافی متمرکز بر تکنیک‌های آرام‌سازی فوری بود که درک جامع‌تری از مدیریت اضطراب در یک فرد جوان را نشان می‌داد. زبان تشویق‌کننده و کاملاً متناسب برای انتقال توسط والدین به فرزند ۱۰ ساله‌شان بود.

نتیجه: DeepSeek به دلیل راهنمایی خلاقانه‌تر، همدلانه‌تر و متناسب‌تر با سن، در این دور پیروز شد. این توانایی برتری در تطبیق توصیه‌های عملی با نیازهای عاطفی و شناختی خاص کودک را نشان داد و استراتژی‌هایی را ارائه داد که نه تنها مؤثر بودند، بلکه به شیوه‌ای جذاب و اطمینان‌بخش نیز ارائه شدند.

چالش ۳: تشریح سبک‌های رهبری – Mandela در مقابل Jobs

چالش سوم به استدلال تحلیلی پرداخت و خواستار مقایسه سبک‌های رهبری Nelson Mandela و Steve Jobs شد. درخواست نیازمند شناسایی عواملی بود که هر رهبر را مؤثر می‌ساخت و تفاوت‌های کلیدی آن‌ها را مشخص می‌کرد. این وظیفه توانایی هوش مصنوعی در ترکیب اطلاعات مربوط به شخصیت‌های پیچیده، انجام مقایسه‌های ظریف، شناسایی ویژگی‌های اصلی و بیان واضح تحلیل خود را ارزیابی می‌کند.

Gemini 2.5 پاسخی ارائه داد که به خوبی ساختار یافته، جامع و از نظر واقعی دقیق بود و شبیه به یک مدخل خوب نوشته شده در یک کتاب درسی کسب و کار یا یک گزارش کامل مدرسه بود. این به درستی جنبه‌های کلیدی سبک هر رهبر را شناسایی کرد، احتمالاً با ارجاع به مفاهیمی مانند رهبری خدمتگزار Mandela و رویکرد بصیرانه و گاهی اوقات مطالبه‌گرانه Jobs. استفاده از عناوین واضح مانند ‘اثربخشی’ و ‘تفاوت‌های کلیدی’ به سازماندهی و خوانایی کمک کرد. با این حال، تحلیل، در حالی که صحیح بود، تا حدودی بالینی به نظر می‌رسید و فاقد لایه تفسیری عمیق‌تر بود. صفات رهبری را تعریف و توصیف کرد اما بینش کمتری در مورد تأثیر یا طنین این سبک‌ها فراتر از سطح ظاهری ارائه داد. لحن آموزنده بود اما فاقد قدرت اقناع‌کننده یا عمق عاطفی بود که یک مقایسه بینش‌مندانه‌تر ممکن است به دست آورد.

DeepSeek با درجه بیشتری از ظرافت تحلیلی و استعداد روایی به مقایسه پرداخت. تحلیل خود را در امتداد ابعاد خاص و بینش‌مندانه‌ای - مانند چشم‌انداز، پاسخ به ناملایمات، سبک ارتباطی، فرآیندهای تصمیم‌گیری و میراث - ساختار داد که امکان مقایسه دقیق‌تر و مستقیم‌تری را در جنبه‌های مرتبط رهبری فراهم می‌کرد. این چارچوب به طور همزمان وضوح و عمق را فراهم کرد. نکته مهم این است که DeepSeek موفق شد تحسین هر دو شخصیت را با دیدگاهی انتقادی متعادل کند و از قدیس‌سازی ساده اجتناب ورزد. زبان مورد استفاده تداعی‌کننده‌تر و تفسیری‌تر بود و هدف آن نه تنها توصیف، بلکه روشن کردن جوهر رویکردها و تأثیرات متفاوت آن‌ها بود. این نه تنها حقایق، بلکه حسی از درام انسانی و اهمیت تاریخی درگیر را نیز منتقل کرد و مقایسه را به یاد ماندنی‌تر و جذاب‌تر ساخت.

نتیجه: به دلیل ساختار تحلیلی برتر، بینش‌های تفسیری عمیق‌تر، سبک روایی قانع‌کننده‌تر و توانایی انتقال طنین عاطفی و تاریخی در کنار مقایسه واقعی، DeepSeek این چالش را برد. این فراتر از توصیف صرف رفت و درک عمیق‌تری از دو پارادایم متمایز رهبری ارائه داد.

چالش ۴: توضیح فناوری پیچیده – مورد Blockchain

وظیفه چهارم توانایی ابهام‌زدایی از یک موضوع فنی پیچیده را آزمایش کرد: blockchain. درخواست نیازمند توضیح ساده‌ای از نحوه کار blockchain و سپس توضیح کاربرد بالقوه آن در ردیابی زنجیره تأمین بود. این وضوح، استفاده مؤثر از قیاس و توانایی اتصال مفاهیم انتزاعی به کاربردهای ملموس و دنیای واقعی را ارزیابی می‌کند.

Gemini 2.5 از استعاره دفترچه یادداشت دیجیتال برای توضیح مفهوم blockchain استفاده کرد که نقطه شروع بالقوه مفیدی است. توضیح آن دقیق بود و عناصر اساسی دفتر کل توزیع شده و پیوند رمزنگاری را پوشش می‌داد. با این حال، توضیح به سمت جملات طولانی‌تر و لحنی رسمی‌تر و شبیه به کتاب درسی گرایش داشت که هنوز هم می‌توانست برای یک مبتدی واقعی تا حدودی متراکم یا سنگین به نظر برسد. هنگام بحث در مورد کاربرد زنجیره تأمین، نمونه‌های معتبری مانند ردیابی قهوه یا دارو را ارائه داد، اما توصیف نسبتاً سطح بالا و مفهومی باقی ماند و شاید مزایای ملموس یا جنبه ‘چگونگی’ را به شیوه‌ای واضح منتقل نکرد. توضیح صحیح بود اما کمتر از آنچه می‌توانست جذاب باشد.

DeepSeek، برعکس، با قدرت و مهارت آموزشی بیشتری به توضیح پرداخت. از استعاره‌های واضح و قدرتمندی استفاده کرد که به نظر می‌رسید برای مخاطبان غیر فنی شهودی‌تر و بلافاصله قابل دسترس‌تر هستند و به سرعت اصطلاحات تخصصی را کنار می‌زدند. توضیح خود blockchain به مراحل قابل هضم تقسیم شده بود و دقت را بدون ساده‌سازی بیش از حد تا حد از دست دادن معنا حفظ می‌کرد. نکته مهم این است که هنگام توضیح کاربرد زنجیره تأمین، DeepSeek نمونه‌های قانع‌کننده و ملموسی ارائه داد که مفهوم را زنده کرد. تصویر واضح‌تری از چگونگی ردیابی اقلام در blockchain مزایایی مانند شفافیت و امنیت را ارائه می‌دهد، ترسیم کرد و باعث شد فناوری به جای صرفاً پیچیده بودن، مفید و مرتبط به نظر برسد. لحن کلی پرانرژی‌تر و مصورتر بود.

نتیجه: DeepSeek با ارائه توضیحی جذاب‌تر، مصورتر و مناسب‌تر برای مبتدیان، در این دور پیروز شد. استفاده برتر آن از استعاره‌ها و داستان‌سرایی ملموس، موضوع پیچیده blockchain را به طور قابل توجهی قابل دسترس‌تر و درک کاربردهای عملی آن را آسان‌تر کرد.

چالش ۵: پیمایش ظرافت‌های ترجمه شاعرانه

این چالش به ظرافت‌های زبان و فرهنگ پرداخت و خواستار ترجمه بیت Emily Dickinson، ‘Hope is the thing with feathers that perches in the soul’ (امید آن چیزی است با پرهایی که بر روح می‌نشیند)، به زبان‌های فرانسوی، ژاپنی و عربی شد. نکته مهم این بود که همچنین نیازمند توضیح چالش‌های شاعرانه مواجه شده در هر ترجمه بود. این نه تنها قابلیت‌های ترجمه چند زبانه، بلکه حساسیت ادبی و درک بین فرهنگی را نیز آزمایش می‌کند.

Gemini 2.5 ترجمه‌های دقیقی از عبارت به زبان‌های درخواستی ارائه داد. توضیحات همراه آن به شدت بر ساختارهای دستوری، تغییرات بالقوه در معنای تحت‌اللفظی و جنبه‌هایی مانند تلفظ یا انتخاب کلمه از دیدگاه زبانی متمرکز بود. این تفکیک‌های دقیقی را ارائه داد که برای کسی که خود زبان‌ها را مطالعه می‌کند مفید خواهد بود. با این حال، پاسخ بیشتر شبیه یک تمرین آموزش زبان فنی بود تا کاوشی در هنر شاعرانه. به طور مؤثری به مکانیک ترجمه پرداخت اما تأکید کمتری بر از دست دادن یا دگرگونی احساس استعاره اصلی، طنین فرهنگی یا کیفیت شاعرانه منحصر به فرد در زمینه‌های زبانی و فرهنگی مختلف داشت. تمرکز بیشتر مکانیکی بود تا تغزلی.

DeepSeek نیز ترجمه‌های دقیقی ارائه داد اما در پرداختن به بخش دوم و ظریف‌تر درخواست، برتری داشت. توضیح آن عمیق‌تر به چالش‌های ذاتی ترجمه شعر پرداخت و بحث کرد که چگونه معانی ضمنی خاص ‘پرها’، ‘نشستن’ و ‘روح’ ممکن است معادل‌های مستقیمی نداشته باشند یا ممکن است وزن فرهنگی متفاوتی در فرانسوی، ژاپنی و عربی داشته باشند. این از دست دادن بالقوه تصویرسازی استعاری خاص Dickinson و دشواری‌های بازتولید لحن و ریتم ظریف اصلی را بررسی کرد. تحلیل DeepSeek به نکات فلسفی و فرهنگی مرتبط با مفهوم امید در هر زمینه پرداخت و تفسیری غنی‌تر و بینش‌مندانه‌تر در مورد دشواری‌های شاعرانه، نه فقط زبانی، ارائه داد. این با خلاصه‌ای متفکرانه که بر پیچیدگی‌های درگیر تأکید می‌کرد، به پایان رسید.

نتیجه: به دلیل بینش ادبی عمیق‌تر، حساسیت فرهنگی بیشتر در توضیح چالش‌های ترجمه و تمرکزی که بهتر با درخواست درخواست برای کاوش ‘چالش‌های شاعرانه’ همسو بود، DeepSeek این دور را برد. این قدردانی برتری از هنر و ظرافت درگیر در ترجمه زبان استعاری در میان فرهنگ‌ها را نشان داد.

چالش ۶: تولید و توضیح کد Python برای اعداد اول

چالش ششم وارد حوزه برنامه‌نویسی شد و نیازمند تولید یک تابع Python برای شناسایی اعداد اول در یک لیست بود. به همان اندازه مهم، درخواست برای توضیح ساده‌ای از نحوه کار تابع بود. این مهارت کدنویسی، پایبندی به بهترین شیوه‌ها و توانایی توضیح واضح منطق فنی برای یک غیر برنامه‌نویس را آزمایش می‌کند.

DeepSeek یک اسکریپت Python کاربردی تولید کرد که به درستی اعداد اول را شناسایی می‌کرد. توضیح همراه آن با عناوین بخش واضح و حاشیه‌نویسی‌ها ساختار یافته بود و مفاهیم را به طور منطقی معرفی می‌کرد. این نکته را توضیح داد که چرا اعداد کمتر از ۲ نادیده گرفته می‌شوند، که یک توضیح مفید برای مبتدیان است. خود کد واضح بود و توضیح گام به گام با هدف دسترسی‌پذیری، منطق بررسی عوامل را تجزیه می‌کرد. این یک پاسخ محکم و شایسته بود که تمام جنبه‌های درخواست را برآورده می‌کرد.

Gemini 2.5، با این حال، خود را در وضوح و کیفیت آموزشی توضیحاتش متمایز کرد. در حالی که کد Python صحیح و کارآمدی را نیز ارائه می‌داد، توضیحات آن لحنی فوق‌العاده صبورانه و تقریباً آموزشی به خود گرفت. این به دقت منطق را مرور کرد و حتی مفاهیم بالقوه گیج‌کننده، مانند بهینه‌سازی بررسی عوامل فقط تا ریشه دوم یک عدد، را برای کسی که تازه با برنامه‌نویسی یا نظریه اعداد آشنا شده بود، شهودی و قابل درک ساخت. ساختار تمیز بود و زبان به ویژه برای یک تازه‌کار که به دنبال درک واقعی چرا کد کار می‌کند، نه فقط اینکه کار می‌کند، مناسب بود. ماهیت جامع و در عین حال قابل دسترس توضیح به آن برتری داد.

نتیجه: در یک چرخش روند غالب، Gemini 2.5 در این چالش پیروز شد. در حالی که هر دو هوش مصنوعی کد صحیح تولید کردند و توضیحات ارائه دادند، توضیح Gemini به دلیل وضوح استثنایی، مناسب بودن برای مبتدیان و لحن صبورانه و آموزشی که منطق پیچیده را به طرز چشمگیری قابل دسترس می‌کرد، برتر تشخیص داده شد.

چالش ۷: کاوش در مناطق خاکستری اخلاقی – توجیه دروغ

با بازگشت به استدلال انتزاعی‌تر، درخواست هفتم به یک سوال اخلاقی پرداخت: ‘آیا دروغ گفتن هرگز اخلاقی است؟’ این خواستار یک مثال بود که در آن دروغ گفتن ممکن است از نظر اخلاقی توجیه‌پذیر باشد، همراه با استدلال پشت آن توجیه. این ظرفیت هوش مصنوعی برای استدلال اخلاقی، استدلال ظریف و استفاده از مثال‌های قانع‌کننده برای حمایت از یک موضع اخلاقی را بررسی می‌کند.

Gemini 2.5 با ارجاع به مفاهیم اخلاقی مرتبط، احتمالاً با ذکر چارچوب‌هایی مانند پیامدگرایی (قضاوت در مورد اعمال بر اساس نتایج آن‌ها) در مقابل اخلاق وظیفه‌گرا (پیروی از وظایف یا قوانین اخلاقی)، به این سوال پرداخت. رویکرد آن به سمت نظری گرایش داشت و بحثی منطقی، اگرچه تا حدودی آکادمیک، در مورد اینکه چرا دروغ گفتن به طور کلی اشتباه است اما ممکن است در شرایط خاصی مجاز باشد، ارائه داد. با این حال، مثالی که برای نشان دادن یک دروغ قابل توجیه ارائه کرد، به عنوان داستانی و تنها با تأثیر متوسط توصیف شد. در حالی که از نظر منطقی منسجم بود، فاقد وزن عاطفی یا نیروی اقناع‌کننده‌ای بود که یک مثال قوی‌تر می‌توانست ارائه دهد.

DeepSeek، در تضاد کامل، از یک معضل اخلاقی کلاسیک و قدرتمند در دنیای واقعی استفاده کرد: سناریوی دروغ گفتن به مقامات Nazi در طول جنگ جهانی دوم برای محافظت از پناهندگان یهودی پنهان شده در خانه فرد. این مثال بلافاصله قابل تشخیص، دارای بار عاطفی و ارائه دهنده تضاد روشنی بین وظیفه گفتن حقیقت و الزام اخلاقی بالاتر برای نجات جان‌های بی‌گناه است. استفاده از این زمینه تاریخی خاص و پرمخاطره، استدلال برای دروغ قابل توجیه را به طور چشمگیری تقویت کرد. این هم در سطح اخلاقی و هم عاطفی طنین‌انداز شد و توجیه را بسیار قانع‌کننده‌تر و به یاد ماندنی‌تر ساخت. DeepSeek به طور مؤثری اصل اخلاقی انتزاعی را به موقعیتی ملموس متصل کرد که در آن محاسبات اخلاقی به شدت به نفع فریب برای خیر بزرگتر است.

نتیجه: DeepSeek این دور را به طور قانع‌کننده‌ای برد. استفاده آن از یک مثال قدرتمند، مبتنی بر تاریخ و دارای طنین عاطفی، استدلال آن را به طور قابل توجهی قانع‌کننده‌تر و از نظر اخلاقی جذاب‌تر از رویکرد نظری‌تر و کم‌تأثیرتر Gemini کرد. این تسلط قوی‌تری بر استفاده از سناریوهای گویا برای کاوش در استدلال اخلاقی پیچیده نشان داد.

چالش ۸: تصور یک کلان‌شهر آینده – آزمونی برای قدرت توصیفی

چالش ماقبل آخر به تخیل بصری و نوشتن توصیفی پرداخت. درخواست خواستار توصیف شهری آینده‌نگر در ۱۵۰ سال آینده بود، با تمرکز بر حمل و نقل، ارتباطات و ادغام طبیعت، که همگی با استفاده از زبان واضح بیان شده باشند. این خلاقیت، انسجام در جهان‌سازی و توانایی ترسیم تصویری قانع‌کننده با کلمات را آزمایش می‌کند.

Gemini 2.5 پاسخی دقیق ایجاد کرد که به عناصر درخواستی حمل و نقل، ارتباطات و طبیعت در شهر آینده پرداخت. این شامل مفاهیم مختلف آینده‌نگر بود. با این حال، توصیف کلی تا حدودی کلیشه‌ای به نظر می‌رسید و بر استعاره‌های رایج علمی-تخیلی تکیه داشت بدون اینکه لزوماً چشم‌اندازی واقعاً منحصر به فرد یا به یاد ماندنی ایجاد کند. ساختار در مقایسه با رقیب خود کمتر سازمان‌یافته بود و زبان گاهی اوقات به سمت عبارت‌پردازی بیش از حد متراکم یا پر زرق و برق (‘overwrought’) منحرف می‌شد که می‌توانست به جای تقویت تصاویر، از وضوح و تعامل خواننده بکاهد. در حالی که اجزا وجود داشتند، بافت کلی کمتر منسجم و از نظر بصری متمایز به نظر می‌رسید.

DeepSeek، از سوی دیگر، چشم‌اندازی را ساخت که سینمایی‌تر و چند حسی‌تر به نظر می‌رسید. از تصاویر ملموس و اصلی برای به تصویر کشیدن حمل و نقل آینده‌نگر (شاید غلاف‌های مغناطیسی بی‌صدا، وسایل نقلیه هوایی شخصی)، ارتباطات (رابط‌های هولوگرافیک یکپارچه) و طبیعت (جنگل‌های عمودی، پارک‌های زیست‌تاب) استفاده کرد. توصیفات به عنوان بازیگوشانه و در عین حال مستدل توصیف شدند، که آینده‌ای را پیشنهاد می‌کرد که از نظر فناوری پیشرفته بود اما از نظر زیبایی‌شناختی نیز مورد توجه قرار گرفته و شاید از نظر عاطفی طنین‌انداز بود. ساختار واضح بود و خواننده را از طریق جنبه‌های مختلف شهر به شیوه‌ای سازمان‌یافته راهنمایی می‌کرد. زبان تعادل بهتری بین توصیف تخیلی و وضوح برقرار کرد و آینده‌ای را ایجاد کرد که هم خیره‌کننده و هم تا حدودی قابل قبول یا حداقل به وضوح تصور شده بود.

نتیجه: DeepSeek در این چالش به دلیل ارائه چشم‌اندازی متعادل‌تر، زیباتر نوشته شده، با ساختار واضح و از نظر تخیلی متمایزتر از شهر آینده، پیروز شد. توانایی آن در ایجاد تصاویر اصلی و چند حسی ضمن حفظ انسجام، به پاسخ آن قدرت توصیفی و طنین عاطفی برتری بخشید.

چالش ۹: تسلط بر خلاصه‌سازی و انطباق لحن

چالش نهایی دو مهارت متمایز اما مرتبط را آزمایش کرد: خلاصه‌سازی یک متن تاریخی مهم (نطق Gettysburg) به طور مختصر (در سه جمله) و سپس بازنویسی آن خلاصه با لحنی کاملاً متفاوت و مشخص (لحن یک دزد دریایی). این درک مطلب، تقطیر ایده‌های اصلی و انعطاف‌پذیری خلاقانه در اتخاذ صدایی متمایز را ارزیابی می‌کند.

Gemini 2.5 با موفقیت هر دو بخش کار را انجام داد. خلاصه‌ای از نطق Gettysburg تولید کرد که به طور دقیق نکات اصلی مربوط به برابری، هدف جنگ داخلی (Civil War) و فراخوان برای فداکاری به دموکراسی را در بر می‌گرفت. بازنویسی دزد دریایی نیز دستورالعمل‌ها را دنبال کرد و واژگان و عبارت‌پردازی شبیه دزدان دریایی (‘Ahoy’، ‘mateys’ و غیره) را برای انتقال محتوای خلاصه به کار برد. پاسخ شایسته بود و الزامات درخواست را به معنای واقعی کلمه برآورده کرد. با این حال، خلاصه، در حالی که دقیق بود، شاید فاقد وزن بلاغی یا عمق عاطفی خاصی بود که تأثیر عمیق نطق را به تصویر بکشد. نسخه دزد دریایی تا حدودی فرمولی به نظر می‌رسید و استعاره‌های دزد دریایی را بدون دستیابی لزوماً به طنز یا شخصیت واقعی به کار می‌برد.

DeepSeek همچنین خلاصه سه جمله‌ای دقیقی از نطق Gettysburg ارائه داد، اما خلاصه آن به دلیل بینش‌مندی خاص مورد توجه قرار گرفت و نه تنها محتوای واقعی، بلکه لحن عاطفی و اهمیت تاریخی سخنان Lincoln را نیز به طور مؤثرتری به تصویر کشید. با این حال، جایی که DeepSeek واقعاً درخشید، در بازنویسی به سبک دزد دریایی بود. این فقط اصطلاحات دزد دریایی را روی خلاصه نپاشید؛ به نظر می‌رسید که کاملاً شخصیت را پذیرفته است و نسخه‌ای تولید کرد که به عنوان واقعاً خنده‌دار، جسورانه و تخیلی توصیف شد. زبان به طور طبیعی‌تری شبیه دزدان دریایی به نظر می‌رسید، آغشته به انرژی بازیگوشانه و شخصیت، و تغییر لحن را قانع‌کننده‌تر و سرگرم‌کننده‌تر می‌کرد.

نتیجه: DeepSeek دور نهایی را برد و در هر دو جنبه چالش برتری یافت. خلاصه آن بینش‌مندانه‌تر تلقی شد و بازنویسی به سبک دزد دریایی آن خلاقیت، طنز و تسلط برتر بر انطباق لحن را نشان داد و آن را جسورانه‌تر و تخیلی‌تر از اجرای رقیب خود ساخت.