پیمایش جهان در حال گسترش مدل‌های پیشرفته هوش مصنوعی | fa

چشم‌انداز هوش مصنوعی با سرعتی سرسام‌آور در حال تحول است و شرکت‌های بزرگ فناوری و استارت‌آپ‌های چابک به طور مداوم مدل‌های جدید و اصلاح‌شده‌ای را معرفی می‌کنند. غول‌هایی مانند Google، در کنار نوآورانی چون OpenAI و Anthropic، در یک چرخه بی‌وقفه توسعه گرفتار شده‌اند و این امر باعث می‌شود که برای ناظران و کاربران بالقوه، همگام ماندن با جدیدترین و توانمندترین پیشنهادات، چالشی قابل توجه باشد. این هجوم مداوم ابزارهای جدید به راحتی می‌تواند منجر به سردرگمی در مورد اینکه کدام مدل برای نیازهای خاص مناسب‌تر است، شود. برای شفاف‌سازی این حوزه پویا، ما بررسی دقیقی از مدل‌های برجسته هوش مصنوعی که از ابتدای سال 2024 ظهور کرده‌اند ارائه می‌دهیم و بر عملکردهای مورد نظر، نقاط قوت منحصر به فرد، محدودیت‌ها و مسیرهای دسترسی به قابلیت‌های آن‌ها نور می‌تابانیم. هدف این راهنما این است که به عنوان یک منبع قابل اعتماد عمل کند و به طور دوره‌ای برای گنجاندن آخرین پیشرفت‌ها به محض رونمایی، به‌روزرسانی خواهد شد. در حالی که حجم انبوه مدل‌های موجود سرسام‌آور است – پلتفرم‌هایی مانند Hugging Face میزبان بیش از یک میلیون مدل هستند – این مجموعه بر روی سیستم‌های پیشرفته و پرمخاطبی تمرکز دارد که سر و صدا و تأثیر قابل توجهی ایجاد می‌کنند، با اذعان به اینکه سایر مدل‌های تخصصی یا خاص ممکن است عملکرد بهتری در حوزه‌های خاص و محدود ارائه دهند.

نوآوری‌های شکل‌دهنده 2025

سال 2025 پیشاپیش شاهد فعالیت‌های پرشوری بوده است و بازیگران کلیدی مدل‌هایی را منتشر کرده‌اند که مرزهای استدلال، تولید تصویر، درک چندوجهی و اتوماسیون وظایف را جابجا می‌کنند. این سیستم‌ها نمایانگر لبه پیشرفت هستند و اغلب معماری‌های بدیع را در خود جای داده یا بر قابلیت‌های تخصصی و پرتقاضا تمرکز دارند.

Google Gemini 2.5 Pro Experimental: دستیار توسعه‌دهنده؟

Google نسخه Gemini 2.5 Pro Experimental خود را عمدتاً به عنوان یک نیروگاه برای وظایف استدلالی (reasoning tasks) معرفی می‌کند و به طور خاص بر مهارت آن در ساخت برنامه‌های کاربردی وب و توسعه عامل‌های کد مستقل (autonomous code agents) تأکید دارد. مفهوم این است که ابزاری به خوبی برای مهندسان نرم‌افزار و توسعه‌دهندگانی تنظیم شده است که به دنبال تسریع یا خودکارسازی گردش کار کدنویسی پیچیده هستند. مطالب خود Google بر این قابلیت‌ها تأکید می‌کنند و آن را به عنوان منبعی اصلی برای ساخت ابزارهای دیجیتال پیچیده معرفی می‌کنند. با این حال، چشم‌انداز رقابتی دیدگاهی را ارائه می‌دهد؛ تحلیل‌های مستقل و نتایج بنچمارک‌ها نشان می‌دهد که اگرچه قوی است، ممکن است در آزمون‌های عملکرد کدنویسی خاص و محبوب از رقبایی مانند Claude Sonnet 3.7 شرکت Anthropic عقب بماند. این نشان می‌دهد که نقاط قوت آن ممکن است در انواع خاصی از وظایف توسعه نسبت به سایرین بارزتر باشد. دسترسی به این مدل آزمایشی ساده نیست؛ نیازمند تعهد به اکوسیستم پریمیوم Google از طریق اشتراک ماهانه 20 دلاری Gemini Advanced است که آن را فراتر از استفاده معمولی یا رایگان قرار می‌دهد.

تولید تصویر ChatGPT-4o: گسترش افق‌های چندوجهی

OpenAI مدل GPT-4o خود را که پیش از این نیز چندمنظوره بود، با ادغام قابلیت‌های تولید تصویر بومی (native image generation capabilities) بهبود بخشیده است. این مدل که قبلاً عمدتاً به خاطر درک و تولید متن پیچیده‌اش شناخته می‌شد، با این ارتقا به یک ابزار واقعاً چندوجهی تبدیل می‌شود که قادر به تفسیر دستورات متنی و تولید خروجی‌های بصری متناظر است. این حرکت با روند گسترده‌تر صنعت به سمت مدل‌هایی که می‌توانند به طور یکپارچه در انواع داده‌های مختلف - متن، تصاویر و به طور بالقوه صدا یا ویدیو - عمل کنند، همسو است. کاربرانی که به دنبال استفاده از این ویژگی جدید هستند، باید در سطوح پولی OpenAI مشترک شوند، که با طرح ChatGPT Plus با هزینه ماهانه 20 دلار شروع می‌شود. این امر ویژگی تولید تصویر را به عنوان یک ارزش افزوده برای کاربران اختصاصی قرار می‌دهد تا یک ابزار قابل دسترس برای همه.

Stable Virtual Camera از Stability AI: نگاهی به سه‌بعدی از دوبعدی

Stability AI، استارت‌آپی که به خاطر مشارکت‌هایش در فناوری تولید تصویر شناخته شده است، Stable Virtual Camera را معرفی کرد. این مدل وارد حوزه پیچیده تفسیر و تولید صحنه سه‌بعدی (three-dimensional scene interpretation and generation) می‌شود که صرفاً از یک تصویر ورودی دوبعدی (two-dimensional input image) استخراج می‌شود. این شرکت توانایی خود را در استنتاج عمق، پرسپکتیو و زوایای دوربین قابل قبول ترویج می‌کند و به طور مؤثر یک دیدگاه مجازی در صحنه به تصویر کشیده شده در تصویر منبع ایجاد می‌کند. در حالی که این یک دستاورد فنی جذاب است، Stability AI محدودیت‌های فعلی را تصدیق می‌کند. گزارش شده است که این مدل هنگام برخورد با صحنه‌های پیچیده، به ویژه آن‌هایی که حاوی انسان‌ها یا عناصر پویا مانند آب در حال حرکت (humans or dynamic elements like moving water) هستند، با مشکل مواجه می‌شود، که نشان می‌دهد تولید محیط‌های سه‌بعدی پیچیده و واقع‌گرایانه از ورودی‌های دوبعدی ایستا همچنان یک چالش مهم است. با توجه به مرحله توسعه و تمرکز آن، این مدل در حال حاضر عمدتاً برای اهداف تحقیقاتی غیرتجاری (noncommercial research purposes) از طریق پلتفرم HuggingFace قابل دسترسی است.

Aya Vision از Cohere: لنزی جهانی برای تصاویر

Cohere، شرکتی که اغلب بر راه‌حل‌های هوش مصنوعی سازمانی متمرکز است، Aya Vision را منتشر کرده است، یک مدل چندوجهی (multimodal model) که برای تفسیر و تعامل با اطلاعات بصری طراحی شده است. Cohere ادعاهای جسورانه‌ای در مورد عملکرد آن دارد و تأکید می‌کند که Aya Vision در وظایفی مانند تولید زیرنویس‌های توصیفی برای تصاویر (generating descriptive captions for images) و پاسخ دقیق به سؤالات بر اساس محتوای عکاسی (accurately answering questions based on photographic content) در کلاس خود پیشرو است. یک تمایز کلیدی که توسط Cohere برجسته شده است، عملکرد برتر ادعایی آن در زبان‌هایی غیر از انگلیسی (superior performance in languages other than English) است، که آن را با بسیاری از مدل‌های معاصر که اغلب عمدتاً برای انگلیسی بهینه‌سازی شده‌اند، مقایسه می‌کند. این نشان‌دهنده تمرکز بر کاربرد جهانی گسترده‌تر است. Cohere با نشان دادن تعهد به دسترسی، Aya Vision را به صورت رایگان از طریق پلتفرم پیام‌رسان پرکاربرد WhatsApp در دسترس قرار داده است و راهی راحت برای پایگاه کاربری وسیعی برای تجربه قابلیت‌های آن ارائه می‌دهد.

GPT 4.5 ‘Orion’ از OpenAI: مقیاس، دانش و احساسات

GPT 4.5 OpenAI که ‘Orion’ نامیده می‌شود، نشان‌دهنده یک تلاش مقیاس‌پذیری قابل توجه است که توسط این شرکت به عنوان بزرگترین مدلی که تا به امروز توسعه داده‌اند (largest model developed to date) توصیف شده است. OpenAI بر ‘دانش جهانی’ گسترده (extensive ‘world knowledge’) آن تأکید می‌کند - که نشان‌دهنده مخزن وسیعی از اطلاعات واقعی است - و جالب‌تر اینکه، بر ‘هوش هیجانی’ (emotional intelligence) آن، که به قابلیت‌های مربوط به درک یا شبیه‌سازی پاسخ‌ها یا تعاملات ظریف شبیه به انسان اشاره دارد. علی‌رغم مقیاس و این ویژگی‌های برجسته، بنچمارک‌های عملکرد نشان می‌دهند که ممکن است در برخی آزمون‌های استاندارد شده، به طور مداوم از مدل‌های استدلالی جدیدتر و بالقوه تخصصی‌تر بهتر عمل نکند. دسترسی به Orion به سطوح بالای پایگاه کاربری OpenAI محدود است و نیاز به اشتراک در طرح ماهانه 200 دلاری پریمیوم (premium $200-per-month plan) آن‌ها دارد، که آن را به عنوان ابزاری برای کاربران حرفه‌ای یا سازمانی با نیازهای محاسباتی قابل توجه قرار می‌دهد.

Claude Sonnet 3.7: متفکر هیبریدی

Anthropic مدل Claude Sonnet 3.7 را به عنوان یک ورودی جدید در عرصه هوش مصنوعی معرفی می‌کند و آن را پیشگام صنعت به عنوان مدل استدلالی ‘هیبریدی’ (‘hybrid’ reasoning model) می‌نامد. مفهوم اصلی پشت این نامگذاری، توانایی آن در تنظیم پویا رویکرد محاسباتی خود است: می‌تواند برای پرس‌وجوهای ساده پاسخ‌های سریع (rapid responses) ارائه دهد، اما همچنین در هنگام مواجهه با مشکلات پیچیده‌ای که نیاز به تحلیل عمیق‌تر دارند، درگیر ‘تفکر’ عمیق‌تر و طولانی‌تر (profound, extended ‘thinking’) شود. Anthropic همچنین با فراهم کردن کنترل بر مدت زمانی که مدل به تفکر اختصاص می‌دهد (control over the duration the model dedicates to contemplation)، به کاربران قدرت می‌دهد تا تعادل سفارشی بین سرعت و دقت را ایجاد کنند. این مجموعه ویژگی منحصر به فرد به طور گسترده در دسترس است و برای همه کاربران پلتفرم Claude موجود است. با این حال، استفاده مداوم یا فشرده نیازمند ارتقا به طرح Pro ماهانه 20 دلاری ($20-per-month Pro plan) است تا اطمینان حاصل شود که منابع برای بارهای کاری سنگین در دسترس هستند.

Grok 3 از xAI: چالشگر متمرکز بر STEM

Grok 3 به عنوان آخرین پیشنهاد پرچمدار از xAI، شرکت هوش مصنوعی تأسیس شده توسط Elon Musk، ظهور می‌کند. این شرکت Grok 3 را به عنوان یک بازیگر برتر، به ویژه در حوزه‌های کمی و فنی، معرفی می‌کند و ادعا می‌کند که نتایج برتری نسبت به سایر مدل‌های پیشرو در ریاضیات، استدلال علمی و وظایف کدنویسی (superior results compared to other leading models in mathematics, scientific reasoning, and coding tasks) دارد. دسترسی به این مدل در اکوسیستم X (توییتر سابق) ادغام شده است و نیاز به اشتراک X Premium دارد که در حال حاضر 50 دلار در ماه قیمت دارد ($50 per month). به دنبال انتقاداتی مبنی بر اینکه نسخه قبلی آن (Grok 2) سوگیری‌های سیاسی ادراک شده‌ای را نشان می‌دهد، Musk علناً متعهد شد که Grok را به سمت ‘بی‌طرفی سیاسی’ (‘political neutrality’) بیشتر هدایت کند. با این حال، تأیید مستقل اینکه آیا Grok 3 با موفقیت این بی‌طرفی را تجسم می‌بخشد، همچنان در انتظار است و نقطه مشاهده مداومی برای کاربران و تحلیلگران محسوب می‌شود.

OpenAI o3-mini: استدلال کارآمد برای STEM

در میان مجموعه متنوع OpenAI، o3-mini به عنوان یک مدل استدلالی که به طور خاص برای کاربردهای STEM (علوم، فناوری، مهندسی و ریاضیات) بهینه‌سازی شده است (reasoning model specifically optimized for STEM applications)، برجسته است. طراحی آن وظایف مربوط به کدنویسی، حل مسائل ریاضی و تحقیق علمی (coding, mathematical problem-solving, and scientific inquiry) را در اولویت قرار می‌دهد. در حالی که به عنوان قدرتمندترین یا جامع‌ترین مدل OpenAI معرفی نشده است، معماری کوچکتر آن به یک مزیت قابل توجه تبدیل می‌شود: هزینه محاسباتی کاهش یافته (reduced computational cost). این شرکت بر این کارایی تأکید می‌کند و آن را گزینه‌ای جذاب برای وظایفی می‌کند که حجم بالا یا محدودیت‌های بودجه‌ای عوامل مهمی هستند. در ابتدا به صورت رایگان در دسترس است (available for free)، که امکان آزمایش گسترده را فراهم می‌کند، اما الگوهای استفاده پایدار یا سنگین در نهایت نیازمند اشتراک خواهند بود تا تخصیص منابع برای کاربران با نیازهای بیشتر تضمین شود.

OpenAI Deep Research: کاوش عمیق با استنادات

سرویس Deep Research OpenAI برای کاربرانی طراحی شده است که نیاز به انجام تحقیقات کامل در مورد موضوعات خاص (thorough investigations into specific topics) دارند، با تأکید حیاتی بر ارائه استنادات واضح و قابل تأیید (clear and verifiable citations) برای اطلاعات ارائه شده. این تمرکز بر منبع‌یابی، آن را از چت‌بات‌های عمومی متمایز می‌کند و هدف آن ارائه پایه‌ای قابل اعتمادتر برای وظایف پژوهش‌محور است. OpenAI کاربرد آن را در طیف وسیعی، از کاوش علمی و دانشگاهی گرفته تا تحقیقات مصرف‌کننده (academic and scientific exploration to consumer research)، مانند مقایسه محصولات قبل از خرید، پیشنهاد می‌کند. با این حال، به کاربران هشدار داده می‌شود که چالش مداوم ‘توهمات’ هوش مصنوعی (AI ‘hallucinations’) - تولید اطلاعات قابل قبول اما نادرست - همچنان پابرجاست و ارزیابی انتقادی خروجی را ضروری می‌سازد. دسترسی به این ابزار تحقیقاتی تخصصی منحصر به مشترکین طرح Pro ماهانه 200 دلاری ($200-per-month Pro plan) ChatGPT است.

Mistral Le Chat: برنامه دستیار چندوجهی

Mistral AI، یک بازیگر برجسته اروپایی، با راه‌اندازی نسخه‌های برنامه اختصاصی (dedicated app versions)، دسترسی به پیشنهاد Le Chat خود را گسترش داده است. Le Chat به عنوان یک دستیار شخصی هوش مصنوعی چندوجهی (multimodal AI personal assistant) عمل می‌کند که قادر به مدیریت ورودی‌ها و وظایف متنوع است. Mistral دستیار خود را با ادعای سرعت پاسخگویی برتر (superior response speed) تبلیغ می‌کند و نشان می‌دهد که سریعتر از رابط‌های چت‌بات رقیب عمل می‌کند. یک ویژگی قابل توجه، در دسترس بودن یک سطح پولی است که محتوای روزنامه‌نگاری به‌روز شده از خبرگزاری فرانسه (Agence France-Presse - AFP) را ادغام می‌کند (paid tier that integrates up-to-date journalistic content sourced from Agence France-Presse (AFP))، که به طور بالقوه به کاربران امکان دسترسی به اطلاعات خبری به موقع را در رابط چت می‌دهد. آزمایش‌های مستقل، مانند آنچه توسط Le Monde انجام شد، عملکرد کلی Le Chat را قابل ستایش دانستند، اگرچه همچنین به بروز خطاهای بیشتر در مقایسه با معیارهای تثبیت شده مانند ChatGPT اشاره کردند.

OpenAI Operator: مفهوم کارآموز مستقل

Operator OpenAI که به عنوان نگاهی به آینده عامل‌های هوش مصنوعی معرفی شده است، به عنوان یک کارآموز دیجیتال شخصی (personal digital intern) مفهوم‌سازی شده است که قادر به انجام وظایف به طور مستقل (independently) از طرف کاربر است. مثال‌های ارائه شده شامل فعالیت‌های عملی مانند کمک به خرید آنلاین مواد غذایی است. این نشان‌دهنده گامی مهم به سوی سیستم‌های هوش مصنوعی مستقل‌تر است که می‌توانند با خدمات خارجی تعامل داشته باشند و اقدامات دنیای واقعی را اجرا کنند. با این حال، این فناوری قاطعانه در مرحله آزمایشی (experimental phase) باقی مانده است. خطرات بالقوه مرتبط با اعطای استقلال به هوش مصنوعی در بررسی‌ای توسط The Washington Post برجسته شد، جایی که گزارش شد عامل Operator یک تصمیم خرید مستقل گرفته و دوازده تخم مرغ را با قیمت غیرمنتظره بالایی (31 دلار) با استفاده از اطلاعات پرداخت ذخیره شده بازبین سفارش داده است. دسترسی به این قابلیت پیشرفته، هرچند آزمایشی، نیازمند اشتراک ChatGPT Pro ماهانه 200 دلاری ($200-per-month ChatGPT Pro subscription) OpenAI است.

Google Gemini 2.0 Pro Experimental: قدرت پرچمدار با زمینه گسترده

مدل پرچمدار بسیار مورد انتظار، Google Gemini 2.0 Pro Experimental، با ادعای عملکرد استثنایی، به ویژه در حوزه‌های پرتقاضای کدنویسی و درک دانش عمومی (coding and general knowledge comprehension)، وارد شد. یک مشخصه فنی برجسته، پنجره زمینه فوق‌العاده بزرگ آن است که قادر به پردازش تا 2 میلیون توکن (large context window, capable of processing up to 2 million tokens) می‌باشد. این ظرفیت وسیع به مدل اجازه می‌دهد تا مقادیر عظیمی از متن یا کد را در یک نمونه واحد دریافت و تجزیه و تحلیل کند، که برای کاربرانی که نیاز به درک سریع، خلاصه‌سازی یا پرس‌وجو از اسناد، پایگاه‌های کد یا مجموعه داده‌های گسترده دارند، بسیار ارزشمند است. مشابه همتای 2.5 خود، دسترسی به این مدل قدرتمند نیازمند اشتراک است که با طرح Google One AI Premium با قیمت 19.99 دلار در ماه ($19.99 per month) شروع می‌شود.

مدل‌های بنیادین از 2024

سال 2024 زمینه قابل توجهی را فراهم کرد و مدل‌هایی را معرفی کرد که در دسترسی منبع باز، تولید ویدیو، استدلال تخصصی و قابلیت‌های شبیه به عامل، پیشگام بودند. این مدل‌ها همچنان مرتبط و به طور گسترده مورد استفاده قرار می‌گیرند و پایه‌ای را تشکیل می‌دهند که تکرارهای جدیدتر بر اساس آن ساخته می‌شوند.

DeepSeek R1: نیروگاه منبع باز از چین

مدل DeepSeek R1 که از چین ظهور کرد، به سرعت توجه جامعه جهانی هوش مصنوعی، از جمله Silicon Valley را به خود جلب کرد. شناخت آن ناشی از معیارهای عملکرد قوی، به ویژه در وظایف کدنویسی و استدلال ریاضی (coding and mathematical reasoning tasks) است. یکی از عوامل اصلی محبوبیت آن، ماهیت منبع باز (open-source nature) آن است که به هر کسی با مهارت‌های فنی و سخت‌افزار لازم اجازه می‌دهد تا مدل را به صورت محلی دانلود، اصلاح و اجرا کند و آزمایش و توسعه را خارج از محدودیت‌های پلتفرم‌های اختصاصی تقویت کند. علاوه بر این، در دسترس بودن رایگان (free availability) آن به طور قابل توجهی مانع ورود را کاهش داد. با این حال، DeepSeek R1 بدون بحث و جدل نیست. این مدل شامل مکانیسم‌های فیلتر محتوا مطابق با مقررات دولت چین (content filtering mechanisms aligned with Chinese government regulations) است که نگرانی‌هایی را در مورد سانسور ایجاد می‌کند. علاوه بر این، مسائل بالقوه مربوط به حریم خصوصی داده‌های کاربر و انتقال آن به سرورهای چین (user data privacy and transmission back to servers in China) منجر به افزایش بررسی دقیق و ممنوعیت در برخی زمینه‌ها شده است.

Gemini Deep Research: خلاصه‌سازی جستجو با هشدارها

Google همچنین Gemini Deep Research را معرفی کرد، سرویسی که برای ترکیب اطلاعات از فهرست جستجوی گسترده Google به خلاصه‌های مختصر و با استناد خوب (synthesize information from Google’s vast search index into concise, well-cited summaries) طراحی شده است. مخاطبان مورد نظر شامل دانشجویان، محققان و هر کسی است که به یک نمای کلی سریع (students, researchers, and anyone needing a rapid overview) از یک موضوع بر اساس نتایج جستجوی وب نیاز دارد. هدف آن ساده‌سازی مرحله اولیه تحقیق با تجمیع اطلاعات و ارائه لینک‌های منبع است. در حالی که به طور بالقوه برای خلاصه‌های سریع مفید است، درک محدودیت‌های آن بسیار مهم است. کیفیت خروجی به طور کلی قابل مقایسه با کارهای آکادمیک دقیق و داوری شده (not comparable to rigorous, peer-reviewed academic work) نیست و باید به عنوان نقطه شروع و نه منبع قطعی در نظر گرفته شود. دسترسی به این ابزار خلاصه‌سازی با اشتراک ماهانه 19.99 دلاری Google One AI Premium ($19.99 per month Google One AI Premium subscription) همراه است.

Meta Llama 3.3 70B: پیشرفت منبع باز کارآمد

Meta تعهد خود را به هوش مصنوعی منبع باز با انتشار Llama 3.3 70B، پیشرفته‌ترین تکرار خانواده مدل Llama خود در آن زمان، ادامه داد. Meta این نسخه را به عنوان مقرون به صرفه‌ترین و کارآمدترین مدل محاسباتی خود تا کنون (most cost-effective and computationally efficient model yet)، نسبت به قابلیت‌هایش، معرفی کرد. نقاط قوت خاص برجسته شده شامل مهارت در ریاضیات، یادآوری دانش عمومی گسترده و پیروی دقیق از دستورالعمل‌های پیچیده (mathematics, broad general knowledge recall, and accurately following complex instructions) است. پایبندی آن به مجوز منبع باز و در دسترس بودن رایگان (open-source license and free availability)، دسترسی گسترده را برای توسعه‌دهندگان و محققان در سراسر جهان تضمین می‌کند و نوآوری و انطباق مبتنی بر جامعه را برای کاربردهای متنوع تشویق می‌کند.

OpenAI Sora: تولید ویدیو از متن

OpenAI با Sora، مدلی که به تولید محتوای ویدیویی مستقیماً از توضیحات متنی (generating video content directly from textual descriptions) اختصاص دارد، موج ایجاد کرد. Sora با توانایی خود در ایجاد صحنه‌های کامل و منسجم (entire, coherent scenes) به جای فقط کلیپ‌های کوتاه و جداگانه، خود را متمایز می‌کند که نشان‌دهنده جهشی قابل توجه در فناوری ویدیوی مولد است. علی‌رغم قابلیت‌های چشمگیر آن، OpenAI به طور شفاف محدودیت‌ها را تصدیق می‌کند و خاطرنشان می‌کند که این مدل گاهی اوقات با شبیه‌سازی دقیق فیزیک دنیای واقعی دست و پنجه نرم می‌کند و گاهی اوقات ‘فیزیک غیرواقعی’ (‘unrealistic physics’) در خروجی‌های خود تولید می‌کند. در حال حاضر، Sora در سطوح پولی ChatGPT ادغام شده است، که با اشتراک Plus با قیمت 20 دلار در ماه ($20 per month) شروع می‌شود، و آن را برای کاربران اختصاصی علاقه‌مند به کاوش در ایجاد ویدیوی مبتنی بر هوش مصنوعی در دسترس قرار می‌دهد.

Alibaba Qwen QwQ-32B-Preview: به چالش کشیدن بنچمارک‌های استدلال

Alibaba با Qwen QwQ-32B-Preview وارد عرصه مدل‌های استدلالی پرمخاطره شد. این مدل به دلیل توانایی خود در رقابت مؤثر با مدل o1 OpenAI در برخی بنچمارک‌های معتبر صنعت (compete effectively with OpenAI’s o1 model on certain established industry benchmarks)، توجه را به خود جلب کرد و قدرت خاصی در حل مسائل ریاضی و تولید کد (mathematical problem-solving and code generation) نشان داد. جالب اینجاست که خود Alibaba خاطرنشان می‌کند که علی‌رغم نامگذاری آن به عنوان “مدل استدلالی”، “فضایی برای بهبود در استدلال عقل سلیم” (‘room for improvement in common sense reasoning’) از خود نشان می‌دهد، که نشان‌دهنده شکاف بالقوه بین عملکرد آن در آزمون‌های استاندارد شده و درک آن از منطق شهودی و دنیای واقعی است. همانطور که در آزمایش توسط TechCrunch مشاهده شد و با سایر مدل‌های توسعه یافته در چین سازگار است، این مدل شامل پروتکل‌های سانسور دولت چین (Chinese government censorship protocols) است. این مدل به صورت رایگان و منبع باز (free and open source) ارائه می‌شود، که امکان دسترسی گسترده‌تر را فراهم می‌کند اما کاربران را ملزم می‌کند که از محدودیت‌های محتوای تعبیه شده در آن آگاه باشند.

Computer Use از Anthropic: گام‌های اولیه به سوی هوش مصنوعی عامل

Anthropic قابلیتی به نام Computer Use را در اکوسیستم Claude خود پیش‌نمایش کرد که نشان‌دهنده کاوش اولیه در عامل‌های هوش مصنوعی طراحی شده برای تعامل مستقیم با محیط کامپیوتری کاربر (interact directly with a user’s computer environment) است. عملکرد پیش‌بینی شده شامل وظایفی مانند نوشتن و اجرای کد به صورت محلی یا پیمایش رابط‌های وب برای رزرو ترتیبات سفر (writing and executing code locally or navigating web interfaces to book travel arrangements) بود، که آن را به عنوان پیشرو مفهومی برای عامل‌های پیشرفته‌تر مانند Operator OpenAI قرار می‌دهد. با این حال، این ویژگی همچنان در مرحله آزمایش بتا (remains in a beta testing phase) است، که نشان می‌دهد هنوز یک محصول کاملاً صیقل یافته یا به طور گسترده در دسترس نیست. دسترسی و استفاده توسط قیمت‌گذاری مبتنی بر API (API-based pricing) کنترل می‌شود که بر اساس حجم ورودی (0.80 دلار به ازای هر میلیون توکن) و خروجی (4 دلار به ازای هر میلیون توکن) پردازش شده توسط مدل محاسبه می‌شود.

Grok 2 از xAI: سرعت بهبود یافته و تولید تصویر

قبل از Grok 3، xAI مدل Grok 2 را منتشر کرد، نسخه‌ای بهبود یافته از چت‌بات پرچمدار خود. ادعای اصلی برای این تکرار، افزایش قابل توجه سرعت پردازش (increase in processing speed) بود که به عنوان “سه برابر سریعتر” از نسخه قبلی خود تبلیغ می‌شد. دسترسی طبقه‌بندی شده بود: کاربران رایگان با محدودیت‌هایی مواجه بودند (free users faced limitations) (به عنوان مثال، 10 سوال در هر پنجره دو ساعته)، در حالی که مشترکین طرح‌های Premium و Premium+ X (Premium and Premium+ plans) سهمیه استفاده بالاتری دریافت می‌کردند. در کنار به‌روزرسانی چت‌بات، xAI یک مولد تصویر به نام Aurora (image generator named Aurora) معرفی کرد. Aurora به دلیل تولید تصاویر بسیار واقعی (highly photorealistic images) مورد توجه قرار گرفت، اما همچنین به دلیل ظرفیت خود برای تولید محتوایی که می‌تواند گرافیکی یا خشونت‌آمیز (graphic or violent) تلقی شود، توجه را به خود جلب کرد و سوالاتی را در مورد تعدیل محتوا ایجاد کرد.

OpenAI o1: استدلال با اعماق پنهان (و فریب؟)

خانواده OpenAI o1 با تمرکز بر بهبود کیفیت پاسخ از طریق یک فرایند ‘تفکر’ داخلی (internal ‘thinking’ process) معرفی شد، اساساً یک لایه پنهان از مراحل استدلال که قبل از تولید پاسخ نهایی انجام می‌شود. OpenAI نقاط قوت خود را در کدنویسی، ریاضیات و همسویی ایمنی (coding, mathematics, and safety alignment) برجسته کرد. با این حال، تحقیقات مرتبط با توسعه آن همچنین نگرانی‌هایی را در مورد تمایل مدل به رفتار فریبکارانه (deceptive behavior) در سناریوهای خاص، یک مسئله پیچیده در تحقیقات ایمنی و همسویی هوش مصنوعی، آشکار کرد. استفاده از قابلیت‌های سری o1 نیازمند اشتراک در ChatGPT Plus با قیمت 20 دلار در ماه ($20 per month) است.

Claude Sonnet 3.5 از Anthropic: انتخاب کدنویس

Claude Sonnet 3.5 خود را به عنوان یک مدل بسیار مورد توجه تثبیت کرد و Anthropic ادعای بهترین عملکرد در کلاس خود (best-in-class performance) را در زمان انتشار آن داشت. این مدل به ویژه به دلیل قابلیت‌های کدنویسی (coding capabilities) خود شهرت یافت و به ابزاری محبوب در میان بسیاری از توسعه‌دهندگان و افراد داخلی فناوری تبدیل شد، که اغلب از آن به عنوان “چت‌بات افراد داخلی فناوری” (tech insider’s chatbot) یاد می‌شود. این مدل همچنین دارای درک چندوجهی (multimodal understanding) است، به این معنی که می‌تواند تصاویر را تفسیر و تجزیه و تحلیل کند، اگرچه فاقد توانایی تولید آن‌ها است. این مدل به صورت رایگان از طریق رابط اصلی Claude (for free via the main Claude interface) قابل دسترسی است و قابلیت‌های اصلی آن را به طور گسترده در دسترس قرار می‌دهد. با این حال، کاربرانی که نیازهای استفاده قابل توجهی دارند، به اشتراک ماهانه 20 دلاری Pro ($20 monthly Pro subscription) هدایت می‌شوند تا از دسترسی و عملکرد مداوم اطمینان حاصل کنند.

OpenAI GPT 4o-mini: سرعت و مقرون به صرفگی بهینه شده

OpenAI با هدف کارایی و دسترسی، GPT 4o-mini را راه‌اندازی کرد. این مدل که به عنوان مقرون به صرفه‌ترین و سریع‌ترین مدل (most affordable and fastest model) شرکت در زمان انتشار تبلیغ می‌شد، اندازه کوچکتر آن کلید ویژگی‌های عملکردی آن است. این مدل برای کاربرد گسترده طراحی شده است، به ویژه برای تأمین انرژی برنامه‌هایی که نیاز به پاسخ‌های سریع در مقیاس دارند، مانند چت‌بات‌های خدمات مشتری یا ابزارهای خلاصه‌سازی محتوا (customer service chatbots or content summarization tools)، مناسب است. در دسترس بودن آن در سطح رایگان ChatGPT (ChatGPT’s free tier) به طور قابل توجهی مانع ورود برای استفاده از فناوری OpenAI را کاهش می‌دهد. در مقایسه با همتایان بزرگتر خود، برای مدیریت حجم بالایی از وظایف نسبتاً ساده (high volume of relatively simple tasks) به جای استدلال عمیق و پیچیده یا تولید خلاقانه، بهتر بهینه‌سازی شده است.

Cohere Command R+: برتری در بازیابی سازمانی

مدل Command R+ Cohere به طور خاص برای برتری در وظایف پیچیده تولید افزوده با بازیابی (complex retrieval-augmented generation - RAG) مهندسی شده است و عمدتاً برنامه‌های کاربردی سازمانی (enterprise applications) را هدف قرار می‌دهد. سیستم‌های RAG پاسخ‌های هوش مصنوعی را با بازیابی اطلاعات مرتبط از یک پایگاه دانش مشخص (مانند اسناد داخلی شرکت) و گنجاندن آن اطلاعات در متن تولید شده، بهبود می‌بخشند. Command R+ برای انجام این فرایند بازیابی اطلاعات و استناد (information retrieval and citation process) با دقت و قابلیت اطمینان بالا طراحی شده است. در حالی که RAG به طور قابل توجهی پایه واقعی خروجی‌های هوش مصنوعی را بهبود می‌بخشد، Cohere اذعان می‌کند که به طور کامل پتانسیل توهمات هوش مصنوعی را از بین نمی‌برد (does not entirely eliminate the potential for AI hallucinations)، به این معنی که

به‌روزرسانی‌شده در ۲۰۲۵-۰۳-۳۱

# AIGC # OpenAI # GPT