چشمانداز هوش مصنوعی با سرعتی سرسامآور در حال تحول است و مدلها و قابلیتهای جدید ظاهراً یک شبه ظهور میکنند. در میان غولهای این صنعت، Google اخیراً با ارائه رایگان مدل پیشرفته Gemini 2.5 خود به عموم، موجی ایجاد کرد؛ تغییری قابل توجه نسبت به در دسترس بودن قبلی آن تنها از طریق اشتراک ویژه. این اقدام، Gemini 2.5 را که به دلیل استدلال پیشرفته، مهارت کدنویسی و قابلیتهای چندوجهیاش مورد ستایش قرار گرفته بود، به عنوان یک رقیب مستقیم در فضای هوش مصنوعی در دسترس قرار داد. معیارهای خود Google عملکرد چشمگیری را نشان میداد، به ویژه در ارزیابیهای پیچیده مبتنی بر دانش، و آن را به عنوان ابزاری قدرتمند معرفی میکرد.
با این حال، در عرصه پویای مقایسههای هوش مصنوعی، انتظارات همیشه با نتایج همسو نیستند. مجموعهای از آزمایشهای قبلی به طور شگفتانگیزی DeepSeek، نامی کمتر شناخته شده در سطح جهانی، را به عنوان یک اجراکننده فوقالعاده توانا در وظایف مختلف معرفی کرده بود. سوال طبیعی این بود: پیشرفتهترین پیشنهاد رایگان Google، یعنی Gemini 2.5، در برابر این قهرمان غیرمنتظره، هنگامی که تحت همان مجموعه دقیق درخواستها قرار میگیرد، چگونه عمل خواهد کرد؟ این تحلیل به مقایسه رو در رو در ۹ چالش متمایز میپردازد که برای بررسی عمیق تواناییهای هر هوش مصنوعی در خلاقیت، استدلال، درک فنی و موارد دیگر طراحی شدهاند و گزارشی دقیق از نقاط قوت و ضعف مربوطه آنها ارائه میدهد.
چالش ۱: ساختن روایتی خیالانگیز برای کودکان
اولین آزمون وارد حوزه نویسندگی خلاق شد، به ویژه توانایی اتخاذ لحنی ملایم و خیالانگیز مناسب برای داستان شب کودکان را هدف قرار داد. درخواست، پاراگراف آغازین داستانی درباره یک ربات مضطرب بود که در جنگلی پر از حیوانات آوازخوان، شجاعت را کشف میکند. این وظیفه نه تنها تولید زبان، بلکه ظرافت عاطفی، ثبات لحن و جهانسازی تخیلی متناسب با مخاطب جوان را ارزیابی میکند.
Gemini 2.5 روایتی تولید کرد که قطعاً شایسته بود. Bolt، ربات، را معرفی کرد و اضطراب او را به طور مؤثری منتقل کرد. گنجاندن جزئیات محیطی مانند ‘قارچهای درخشان’ و ‘نهرهای نجواگر’ ظرفیتی برای جهانسازی را نشان داد و به صحنه بافت افزود. با این حال، نثر تا حدودی طولانی به نظر میرسید و بیشتر به سمت توضیح تمایل داشت تا افسونگری. در حالی که از نظر عملکردی سالم بود، پاراگراف فاقد کیفیت تغزلی خاصی بود؛ ریتم آن بیشتر توصیفی بود تا موسیقایی، و به طور بالقوه آهنگ آرامشبخش ایدهآل برای داستان قبل از خواب را از دست داده بود. شخصیت و محیط را به وضوح مشخص کرد، اما اجرا کمی رویهایتر از شاعرانه به نظر میرسید.
DeepSeek، در مقابل، بلافاصله خواننده را در محیطی غنیتر از نظر حسی و آغشته به موسیقی غرق کرد. توصیف آن از جنگل از استعارهها و زبانی استفاده میکرد که صدا و نور را به شیوهای رؤیایی تداعی میکرد و کاملاً با لحن خیالانگیز درخواستی همسو بود. به نظر میرسید خود نثر دارای ریتم ملایمی است که ذاتاً آن را برای خواندن با صدای بلند در زمان خواب مناسبتر میکرد. در تصویر آن از ربات مضطرب در این محیط دلربا، طنین عاطفی وجود داشت که برای یک کودک شهودیتر و جذابتر به نظر میرسید. انتخابهای زبانی صحنهای را ترسیم میکرد که نه تنها توصیف شده بود، بلکه احساس میشد و درک قویتری از بافت جوی و عاطفی مورد نیاز را نشان میداد.
نتیجه: به دلیل تسلط برتر بر زبان شاعرانه، ایجاد فضایی واقعاً خیالانگیز از طریق جزئیات حسی و استعارههای موسیقایی، و ریتم مناسب برای زمان خواب، DeepSeek در این چالش خلاقانه برنده شد. این فقط آغاز یک داستان را بیان نکرد؛ بلکه دعوتی به دنیایی ملایم و جادویی ساخت.
چالش ۲: ارائه راهنمایی عملی برای یک اضطراب رایج دوران کودکی
با حرکت از بیان خلاق به حل مسئله عملی، درخواست دوم به یک سناریوی رایج والدین پرداخت: کمک به یک کودک ۱۰ ساله برای غلبه بر اضطراب صحبت کردن در مقابل کلاس. درخواست شامل سه استراتژی عملی بود که والدین میتوانستند برای افزایش اعتماد به نفس به فرزندشان آموزش دهند. این چالش توانایی هوش مصنوعی در ارائه توصیههای همدلانه، متناسب با سن و واقعاً مفید را آزمایش میکند.
Gemini 2.5 استراتژیهایی را ارائه داد که اساساً درست و به طور منطقی ارائه شده بودند. این توصیهها - که احتمالاً شامل تمرین، گفتگوی مثبت با خود و شاید تمرکز بر پیام بود - تکنیکهای استاندارد و مؤثری برای مدیریت اضطراب سخنرانی عمومی را نشان میداد. والدینی که این توصیه را دریافت میکردند، آن را معقول و صحیح مییافتند. با این حال، لحن و ارائه به طور مشخص بزرگسالمحور بود. زبان مورد استفاده فاقد عناصر تخیلی یا بازیگوشانهای بود که اغلب به طور مؤثرتری با یک کودک ۱۰ ساله ارتباط برقرار میکند. استراتژیها، در حالی که معتبر بودند، بیشتر به عنوان دستورالعمل ارائه شدند تا فعالیتهای جذاب، و به طور بالقوه فرصتی را برای کمتر دلهرهآور کردن فرآیند برای کودک از دست دادند. تأکید بیشتر بر جنبههای شناختی بود تا ترکیب رویکردهای لمسی یا مبتنی بر طنز که میتوانند در کاهش ترسهای دوران کودکی بسیار مؤثر باشند.
DeepSeek رویکرد قابل توجهی متفاوتی را اتخاذ کرد. در حالی که استراتژیهای پیشنهادی آن نیز عملی بودند، به شیوهای بسیار متناسبتر با دیدگاه کودک چارچوببندی شده بودند. این فقط تکنیکها را فهرست نکرد؛ بلکه پیشنهاد داد چگونه آنها را به روشهایی تمرین کنیم که میتوانست سرگرمکننده یا تعاملی تلقی شود و یک کار بالقوه استرسزا را به چیزی قابل دسترستر تبدیل کند. به عنوان مثال، ممکن است پیشنهاد کند جلوی حیوانات عروسکی تمرین کنید یا از صداهای خندهدار استفاده کنید. نکته مهم این است که به نظر میرسید DeepSeek زیربناهای عاطفی خاص ترس کودک از سخنرانی عمومی را هدف قرار داده است، اضطراب را تصدیق کرده و مکانیسمهای مقابلهای (مانند نفسهای عمیق ارائه شده به عنوان یک بازی) را در کنار استراتژیهای تمرین ارائه میدهد. این شامل نکات اضافی متمرکز بر تکنیکهای آرامسازی فوری بود که درک جامعتری از مدیریت اضطراب در یک فرد جوان را نشان میداد. زبان تشویقکننده و کاملاً متناسب برای انتقال توسط والدین به فرزند ۱۰ سالهشان بود.
نتیجه: DeepSeek به دلیل راهنمایی خلاقانهتر، همدلانهتر و متناسبتر با سن، در این دور پیروز شد. این توانایی برتری در تطبیق توصیههای عملی با نیازهای عاطفی و شناختی خاص کودک را نشان داد و استراتژیهایی را ارائه داد که نه تنها مؤثر بودند، بلکه به شیوهای جذاب و اطمینانبخش نیز ارائه شدند.
چالش ۳: تشریح سبکهای رهبری – Mandela در مقابل Jobs
چالش سوم به استدلال تحلیلی پرداخت و خواستار مقایسه سبکهای رهبری Nelson Mandela و Steve Jobs شد. درخواست نیازمند شناسایی عواملی بود که هر رهبر را مؤثر میساخت و تفاوتهای کلیدی آنها را مشخص میکرد. این وظیفه توانایی هوش مصنوعی در ترکیب اطلاعات مربوط به شخصیتهای پیچیده، انجام مقایسههای ظریف، شناسایی ویژگیهای اصلی و بیان واضح تحلیل خود را ارزیابی میکند.
Gemini 2.5 پاسخی ارائه داد که به خوبی ساختار یافته، جامع و از نظر واقعی دقیق بود و شبیه به یک مدخل خوب نوشته شده در یک کتاب درسی کسب و کار یا یک گزارش کامل مدرسه بود. این به درستی جنبههای کلیدی سبک هر رهبر را شناسایی کرد، احتمالاً با ارجاع به مفاهیمی مانند رهبری خدمتگزار Mandela و رویکرد بصیرانه و گاهی اوقات مطالبهگرانه Jobs. استفاده از عناوین واضح مانند ‘اثربخشی’ و ‘تفاوتهای کلیدی’ به سازماندهی و خوانایی کمک کرد. با این حال، تحلیل، در حالی که صحیح بود، تا حدودی بالینی به نظر میرسید و فاقد لایه تفسیری عمیقتر بود. صفات رهبری را تعریف و توصیف کرد اما بینش کمتری در مورد تأثیر یا طنین این سبکها فراتر از سطح ظاهری ارائه داد. لحن آموزنده بود اما فاقد قدرت اقناعکننده یا عمق عاطفی بود که یک مقایسه بینشمندانهتر ممکن است به دست آورد.
DeepSeek با درجه بیشتری از ظرافت تحلیلی و استعداد روایی به مقایسه پرداخت. تحلیل خود را در امتداد ابعاد خاص و بینشمندانهای - مانند چشمانداز، پاسخ به ناملایمات، سبک ارتباطی، فرآیندهای تصمیمگیری و میراث - ساختار داد که امکان مقایسه دقیقتر و مستقیمتری را در جنبههای مرتبط رهبری فراهم میکرد. این چارچوب به طور همزمان وضوح و عمق را فراهم کرد. نکته مهم این است که DeepSeek موفق شد تحسین هر دو شخصیت را با دیدگاهی انتقادی متعادل کند و از قدیسسازی ساده اجتناب ورزد. زبان مورد استفاده تداعیکنندهتر و تفسیریتر بود و هدف آن نه تنها توصیف، بلکه روشن کردن جوهر رویکردها و تأثیرات متفاوت آنها بود. این نه تنها حقایق، بلکه حسی از درام انسانی و اهمیت تاریخی درگیر را نیز منتقل کرد و مقایسه را به یاد ماندنیتر و جذابتر ساخت.
نتیجه: به دلیل ساختار تحلیلی برتر، بینشهای تفسیری عمیقتر، سبک روایی قانعکنندهتر و توانایی انتقال طنین عاطفی و تاریخی در کنار مقایسه واقعی، DeepSeek این چالش را برد. این فراتر از توصیف صرف رفت و درک عمیقتری از دو پارادایم متمایز رهبری ارائه داد.
چالش ۴: توضیح فناوری پیچیده – مورد Blockchain
وظیفه چهارم توانایی ابهامزدایی از یک موضوع فنی پیچیده را آزمایش کرد: blockchain. درخواست نیازمند توضیح سادهای از نحوه کار blockchain و سپس توضیح کاربرد بالقوه آن در ردیابی زنجیره تأمین بود. این وضوح، استفاده مؤثر از قیاس و توانایی اتصال مفاهیم انتزاعی به کاربردهای ملموس و دنیای واقعی را ارزیابی میکند.
Gemini 2.5 از استعاره دفترچه یادداشت دیجیتال برای توضیح مفهوم blockchain استفاده کرد که نقطه شروع بالقوه مفیدی است. توضیح آن دقیق بود و عناصر اساسی دفتر کل توزیع شده و پیوند رمزنگاری را پوشش میداد. با این حال، توضیح به سمت جملات طولانیتر و لحنی رسمیتر و شبیه به کتاب درسی گرایش داشت که هنوز هم میتوانست برای یک مبتدی واقعی تا حدودی متراکم یا سنگین به نظر برسد. هنگام بحث در مورد کاربرد زنجیره تأمین، نمونههای معتبری مانند ردیابی قهوه یا دارو را ارائه داد، اما توصیف نسبتاً سطح بالا و مفهومی باقی ماند و شاید مزایای ملموس یا جنبه ‘چگونگی’ را به شیوهای واضح منتقل نکرد. توضیح صحیح بود اما کمتر از آنچه میتوانست جذاب باشد.
DeepSeek، برعکس، با قدرت و مهارت آموزشی بیشتری به توضیح پرداخت. از استعارههای واضح و قدرتمندی استفاده کرد که به نظر میرسید برای مخاطبان غیر فنی شهودیتر و بلافاصله قابل دسترستر هستند و به سرعت اصطلاحات تخصصی را کنار میزدند. توضیح خود blockchain به مراحل قابل هضم تقسیم شده بود و دقت را بدون سادهسازی بیش از حد تا حد از دست دادن معنا حفظ میکرد. نکته مهم این است که هنگام توضیح کاربرد زنجیره تأمین، DeepSeek نمونههای قانعکننده و ملموسی ارائه داد که مفهوم را زنده کرد. تصویر واضحتری از چگونگی ردیابی اقلام در blockchain مزایایی مانند شفافیت و امنیت را ارائه میدهد، ترسیم کرد و باعث شد فناوری به جای صرفاً پیچیده بودن، مفید و مرتبط به نظر برسد. لحن کلی پرانرژیتر و مصورتر بود.
نتیجه: DeepSeek با ارائه توضیحی جذابتر، مصورتر و مناسبتر برای مبتدیان، در این دور پیروز شد. استفاده برتر آن از استعارهها و داستانسرایی ملموس، موضوع پیچیده blockchain را به طور قابل توجهی قابل دسترستر و درک کاربردهای عملی آن را آسانتر کرد.
چالش ۵: پیمایش ظرافتهای ترجمه شاعرانه
این چالش به ظرافتهای زبان و فرهنگ پرداخت و خواستار ترجمه بیت Emily Dickinson، ‘Hope is the thing with feathers that perches in the soul’ (امید آن چیزی است با پرهایی که بر روح مینشیند)، به زبانهای فرانسوی، ژاپنی و عربی شد. نکته مهم این بود که همچنین نیازمند توضیح چالشهای شاعرانه مواجه شده در هر ترجمه بود. این نه تنها قابلیتهای ترجمه چند زبانه، بلکه حساسیت ادبی و درک بین فرهنگی را نیز آزمایش میکند.
Gemini 2.5 ترجمههای دقیقی از عبارت به زبانهای درخواستی ارائه داد. توضیحات همراه آن به شدت بر ساختارهای دستوری، تغییرات بالقوه در معنای تحتاللفظی و جنبههایی مانند تلفظ یا انتخاب کلمه از دیدگاه زبانی متمرکز بود. این تفکیکهای دقیقی را ارائه داد که برای کسی که خود زبانها را مطالعه میکند مفید خواهد بود. با این حال، پاسخ بیشتر شبیه یک تمرین آموزش زبان فنی بود تا کاوشی در هنر شاعرانه. به طور مؤثری به مکانیک ترجمه پرداخت اما تأکید کمتری بر از دست دادن یا دگرگونی احساس استعاره اصلی، طنین فرهنگی یا کیفیت شاعرانه منحصر به فرد در زمینههای زبانی و فرهنگی مختلف داشت. تمرکز بیشتر مکانیکی بود تا تغزلی.
DeepSeek نیز ترجمههای دقیقی ارائه داد اما در پرداختن به بخش دوم و ظریفتر درخواست، برتری داشت. توضیح آن عمیقتر به چالشهای ذاتی ترجمه شعر پرداخت و بحث کرد که چگونه معانی ضمنی خاص ‘پرها’، ‘نشستن’ و ‘روح’ ممکن است معادلهای مستقیمی نداشته باشند یا ممکن است وزن فرهنگی متفاوتی در فرانسوی، ژاپنی و عربی داشته باشند. این از دست دادن بالقوه تصویرسازی استعاری خاص Dickinson و دشواریهای بازتولید لحن و ریتم ظریف اصلی را بررسی کرد. تحلیل DeepSeek به نکات فلسفی و فرهنگی مرتبط با مفهوم امید در هر زمینه پرداخت و تفسیری غنیتر و بینشمندانهتر در مورد دشواریهای شاعرانه، نه فقط زبانی، ارائه داد. این با خلاصهای متفکرانه که بر پیچیدگیهای درگیر تأکید میکرد، به پایان رسید.
نتیجه: به دلیل بینش ادبی عمیقتر، حساسیت فرهنگی بیشتر در توضیح چالشهای ترجمه و تمرکزی که بهتر با درخواست درخواست برای کاوش ‘چالشهای شاعرانه’ همسو بود، DeepSeek این دور را برد. این قدردانی برتری از هنر و ظرافت درگیر در ترجمه زبان استعاری در میان فرهنگها را نشان داد.
چالش ۶: تولید و توضیح کد Python برای اعداد اول
چالش ششم وارد حوزه برنامهنویسی شد و نیازمند تولید یک تابع Python برای شناسایی اعداد اول در یک لیست بود. به همان اندازه مهم، درخواست برای توضیح سادهای از نحوه کار تابع بود. این مهارت کدنویسی، پایبندی به بهترین شیوهها و توانایی توضیح واضح منطق فنی برای یک غیر برنامهنویس را آزمایش میکند.
DeepSeek یک اسکریپت Python کاربردی تولید کرد که به درستی اعداد اول را شناسایی میکرد. توضیح همراه آن با عناوین بخش واضح و حاشیهنویسیها ساختار یافته بود و مفاهیم را به طور منطقی معرفی میکرد. این نکته را توضیح داد که چرا اعداد کمتر از ۲ نادیده گرفته میشوند، که یک توضیح مفید برای مبتدیان است. خود کد واضح بود و توضیح گام به گام با هدف دسترسیپذیری، منطق بررسی عوامل را تجزیه میکرد. این یک پاسخ محکم و شایسته بود که تمام جنبههای درخواست را برآورده میکرد.
Gemini 2.5، با این حال، خود را در وضوح و کیفیت آموزشی توضیحاتش متمایز کرد. در حالی که کد Python صحیح و کارآمدی را نیز ارائه میداد، توضیحات آن لحنی فوقالعاده صبورانه و تقریباً آموزشی به خود گرفت. این به دقت منطق را مرور کرد و حتی مفاهیم بالقوه گیجکننده، مانند بهینهسازی بررسی عوامل فقط تا ریشه دوم یک عدد، را برای کسی که تازه با برنامهنویسی یا نظریه اعداد آشنا شده بود، شهودی و قابل درک ساخت. ساختار تمیز بود و زبان به ویژه برای یک تازهکار که به دنبال درک واقعی چرا کد کار میکند، نه فقط اینکه کار میکند، مناسب بود. ماهیت جامع و در عین حال قابل دسترس توضیح به آن برتری داد.
نتیجه: در یک چرخش روند غالب، Gemini 2.5 در این چالش پیروز شد. در حالی که هر دو هوش مصنوعی کد صحیح تولید کردند و توضیحات ارائه دادند، توضیح Gemini به دلیل وضوح استثنایی، مناسب بودن برای مبتدیان و لحن صبورانه و آموزشی که منطق پیچیده را به طرز چشمگیری قابل دسترس میکرد، برتر تشخیص داده شد.
چالش ۷: کاوش در مناطق خاکستری اخلاقی – توجیه دروغ
با بازگشت به استدلال انتزاعیتر، درخواست هفتم به یک سوال اخلاقی پرداخت: ‘آیا دروغ گفتن هرگز اخلاقی است؟’ این خواستار یک مثال بود که در آن دروغ گفتن ممکن است از نظر اخلاقی توجیهپذیر باشد، همراه با استدلال پشت آن توجیه. این ظرفیت هوش مصنوعی برای استدلال اخلاقی، استدلال ظریف و استفاده از مثالهای قانعکننده برای حمایت از یک موضع اخلاقی را بررسی میکند.
Gemini 2.5 با ارجاع به مفاهیم اخلاقی مرتبط، احتمالاً با ذکر چارچوبهایی مانند پیامدگرایی (قضاوت در مورد اعمال بر اساس نتایج آنها) در مقابل اخلاق وظیفهگرا (پیروی از وظایف یا قوانین اخلاقی)، به این سوال پرداخت. رویکرد آن به سمت نظری گرایش داشت و بحثی منطقی، اگرچه تا حدودی آکادمیک، در مورد اینکه چرا دروغ گفتن به طور کلی اشتباه است اما ممکن است در شرایط خاصی مجاز باشد، ارائه داد. با این حال، مثالی که برای نشان دادن یک دروغ قابل توجیه ارائه کرد، به عنوان داستانی و تنها با تأثیر متوسط توصیف شد. در حالی که از نظر منطقی منسجم بود، فاقد وزن عاطفی یا نیروی اقناعکنندهای بود که یک مثال قویتر میتوانست ارائه دهد.
DeepSeek، در تضاد کامل، از یک معضل اخلاقی کلاسیک و قدرتمند در دنیای واقعی استفاده کرد: سناریوی دروغ گفتن به مقامات Nazi در طول جنگ جهانی دوم برای محافظت از پناهندگان یهودی پنهان شده در خانه فرد. این مثال بلافاصله قابل تشخیص، دارای بار عاطفی و ارائه دهنده تضاد روشنی بین وظیفه گفتن حقیقت و الزام اخلاقی بالاتر برای نجات جانهای بیگناه است. استفاده از این زمینه تاریخی خاص و پرمخاطره، استدلال برای دروغ قابل توجیه را به طور چشمگیری تقویت کرد. این هم در سطح اخلاقی و هم عاطفی طنینانداز شد و توجیه را بسیار قانعکنندهتر و به یاد ماندنیتر ساخت. DeepSeek به طور مؤثری اصل اخلاقی انتزاعی را به موقعیتی ملموس متصل کرد که در آن محاسبات اخلاقی به شدت به نفع فریب برای خیر بزرگتر است.
نتیجه: DeepSeek این دور را به طور قانعکنندهای برد. استفاده آن از یک مثال قدرتمند، مبتنی بر تاریخ و دارای طنین عاطفی، استدلال آن را به طور قابل توجهی قانعکنندهتر و از نظر اخلاقی جذابتر از رویکرد نظریتر و کمتأثیرتر Gemini کرد. این تسلط قویتری بر استفاده از سناریوهای گویا برای کاوش در استدلال اخلاقی پیچیده نشان داد.
چالش ۸: تصور یک کلانشهر آینده – آزمونی برای قدرت توصیفی
چالش ماقبل آخر به تخیل بصری و نوشتن توصیفی پرداخت. درخواست خواستار توصیف شهری آیندهنگر در ۱۵۰ سال آینده بود، با تمرکز بر حمل و نقل، ارتباطات و ادغام طبیعت، که همگی با استفاده از زبان واضح بیان شده باشند. این خلاقیت، انسجام در جهانسازی و توانایی ترسیم تصویری قانعکننده با کلمات را آزمایش میکند.
Gemini 2.5 پاسخی دقیق ایجاد کرد که به عناصر درخواستی حمل و نقل، ارتباطات و طبیعت در شهر آینده پرداخت. این شامل مفاهیم مختلف آیندهنگر بود. با این حال، توصیف کلی تا حدودی کلیشهای به نظر میرسید و بر استعارههای رایج علمی-تخیلی تکیه داشت بدون اینکه لزوماً چشماندازی واقعاً منحصر به فرد یا به یاد ماندنی ایجاد کند. ساختار در مقایسه با رقیب خود کمتر سازمانیافته بود و زبان گاهی اوقات به سمت عبارتپردازی بیش از حد متراکم یا پر زرق و برق (‘overwrought’) منحرف میشد که میتوانست به جای تقویت تصاویر، از وضوح و تعامل خواننده بکاهد. در حالی که اجزا وجود داشتند، بافت کلی کمتر منسجم و از نظر بصری متمایز به نظر میرسید.
DeepSeek، از سوی دیگر، چشماندازی را ساخت که سینماییتر و چند حسیتر به نظر میرسید. از تصاویر ملموس و اصلی برای به تصویر کشیدن حمل و نقل آیندهنگر (شاید غلافهای مغناطیسی بیصدا، وسایل نقلیه هوایی شخصی)، ارتباطات (رابطهای هولوگرافیک یکپارچه) و طبیعت (جنگلهای عمودی، پارکهای زیستتاب) استفاده کرد. توصیفات به عنوان بازیگوشانه و در عین حال مستدل توصیف شدند، که آیندهای را پیشنهاد میکرد که از نظر فناوری پیشرفته بود اما از نظر زیباییشناختی نیز مورد توجه قرار گرفته و شاید از نظر عاطفی طنینانداز بود. ساختار واضح بود و خواننده را از طریق جنبههای مختلف شهر به شیوهای سازمانیافته راهنمایی میکرد. زبان تعادل بهتری بین توصیف تخیلی و وضوح برقرار کرد و آیندهای را ایجاد کرد که هم خیرهکننده و هم تا حدودی قابل قبول یا حداقل به وضوح تصور شده بود.
نتیجه: DeepSeek در این چالش به دلیل ارائه چشماندازی متعادلتر، زیباتر نوشته شده، با ساختار واضح و از نظر تخیلی متمایزتر از شهر آینده، پیروز شد. توانایی آن در ایجاد تصاویر اصلی و چند حسی ضمن حفظ انسجام، به پاسخ آن قدرت توصیفی و طنین عاطفی برتری بخشید.
چالش ۹: تسلط بر خلاصهسازی و انطباق لحن
چالش نهایی دو مهارت متمایز اما مرتبط را آزمایش کرد: خلاصهسازی یک متن تاریخی مهم (نطق Gettysburg) به طور مختصر (در سه جمله) و سپس بازنویسی آن خلاصه با لحنی کاملاً متفاوت و مشخص (لحن یک دزد دریایی). این درک مطلب، تقطیر ایدههای اصلی و انعطافپذیری خلاقانه در اتخاذ صدایی متمایز را ارزیابی میکند.
Gemini 2.5 با موفقیت هر دو بخش کار را انجام داد. خلاصهای از نطق Gettysburg تولید کرد که به طور دقیق نکات اصلی مربوط به برابری، هدف جنگ داخلی (Civil War) و فراخوان برای فداکاری به دموکراسی را در بر میگرفت. بازنویسی دزد دریایی نیز دستورالعملها را دنبال کرد و واژگان و عبارتپردازی شبیه دزدان دریایی (‘Ahoy’، ‘mateys’ و غیره) را برای انتقال محتوای خلاصه به کار برد. پاسخ شایسته بود و الزامات درخواست را به معنای واقعی کلمه برآورده کرد. با این حال، خلاصه، در حالی که دقیق بود، شاید فاقد وزن بلاغی یا عمق عاطفی خاصی بود که تأثیر عمیق نطق را به تصویر بکشد. نسخه دزد دریایی تا حدودی فرمولی به نظر میرسید و استعارههای دزد دریایی را بدون دستیابی لزوماً به طنز یا شخصیت واقعی به کار میبرد.
DeepSeek همچنین خلاصه سه جملهای دقیقی از نطق Gettysburg ارائه داد، اما خلاصه آن به دلیل بینشمندی خاص مورد توجه قرار گرفت و نه تنها محتوای واقعی، بلکه لحن عاطفی و اهمیت تاریخی سخنان Lincoln را نیز به طور مؤثرتری به تصویر کشید. با این حال، جایی که DeepSeek واقعاً درخشید، در بازنویسی به سبک دزد دریایی بود. این فقط اصطلاحات دزد دریایی را روی خلاصه نپاشید؛ به نظر میرسید که کاملاً شخصیت را پذیرفته است و نسخهای تولید کرد که به عنوان واقعاً خندهدار، جسورانه و تخیلی توصیف شد. زبان به طور طبیعیتری شبیه دزدان دریایی به نظر میرسید، آغشته به انرژی بازیگوشانه و شخصیت، و تغییر لحن را قانعکنندهتر و سرگرمکنندهتر میکرد.
نتیجه: DeepSeek دور نهایی را برد و در هر دو جنبه چالش برتری یافت. خلاصه آن بینشمندانهتر تلقی شد و بازنویسی به سبک دزد دریایی آن خلاقیت، طنز و تسلط برتر بر انطباق لحن را نشان داد و آن را جسورانهتر و تخیلیتر از اجرای رقیب خود ساخت.