چشمانداز هوش مصنوعی با سرعتی سرسامآور در حال تحول است و شرکتهای بزرگ فناوری و استارتآپهای چابک به طور مداوم مدلهای جدید و اصلاحشدهای را معرفی میکنند. غولهایی مانند Google، در کنار نوآورانی چون OpenAI و Anthropic، در یک چرخه بیوقفه توسعه گرفتار شدهاند و این امر باعث میشود که برای ناظران و کاربران بالقوه، همگام ماندن با جدیدترین و توانمندترین پیشنهادات، چالشی قابل توجه باشد. این هجوم مداوم ابزارهای جدید به راحتی میتواند منجر به سردرگمی در مورد اینکه کدام مدل برای نیازهای خاص مناسبتر است، شود. برای شفافسازی این حوزه پویا، ما بررسی دقیقی از مدلهای برجسته هوش مصنوعی که از ابتدای سال 2024 ظهور کردهاند ارائه میدهیم و بر عملکردهای مورد نظر، نقاط قوت منحصر به فرد، محدودیتها و مسیرهای دسترسی به قابلیتهای آنها نور میتابانیم. هدف این راهنما این است که به عنوان یک منبع قابل اعتماد عمل کند و به طور دورهای برای گنجاندن آخرین پیشرفتها به محض رونمایی، بهروزرسانی خواهد شد. در حالی که حجم انبوه مدلهای موجود سرسامآور است – پلتفرمهایی مانند Hugging Face میزبان بیش از یک میلیون مدل هستند – این مجموعه بر روی سیستمهای پیشرفته و پرمخاطبی تمرکز دارد که سر و صدا و تأثیر قابل توجهی ایجاد میکنند، با اذعان به اینکه سایر مدلهای تخصصی یا خاص ممکن است عملکرد بهتری در حوزههای خاص و محدود ارائه دهند.
نوآوریهای شکلدهنده 2025
سال 2025 پیشاپیش شاهد فعالیتهای پرشوری بوده است و بازیگران کلیدی مدلهایی را منتشر کردهاند که مرزهای استدلال، تولید تصویر، درک چندوجهی و اتوماسیون وظایف را جابجا میکنند. این سیستمها نمایانگر لبه پیشرفت هستند و اغلب معماریهای بدیع را در خود جای داده یا بر قابلیتهای تخصصی و پرتقاضا تمرکز دارند.
Google Gemini 2.5 Pro Experimental: دستیار توسعهدهنده؟
Google نسخه Gemini 2.5 Pro Experimental خود را عمدتاً به عنوان یک نیروگاه برای وظایف استدلالی (reasoning tasks) معرفی میکند و به طور خاص بر مهارت آن در ساخت برنامههای کاربردی وب و توسعه عاملهای کد مستقل (autonomous code agents) تأکید دارد. مفهوم این است که ابزاری به خوبی برای مهندسان نرمافزار و توسعهدهندگانی تنظیم شده است که به دنبال تسریع یا خودکارسازی گردش کار کدنویسی پیچیده هستند. مطالب خود Google بر این قابلیتها تأکید میکنند و آن را به عنوان منبعی اصلی برای ساخت ابزارهای دیجیتال پیچیده معرفی میکنند. با این حال، چشمانداز رقابتی دیدگاهی را ارائه میدهد؛ تحلیلهای مستقل و نتایج بنچمارکها نشان میدهد که اگرچه قوی است، ممکن است در آزمونهای عملکرد کدنویسی خاص و محبوب از رقبایی مانند Claude Sonnet 3.7 شرکت Anthropic عقب بماند. این نشان میدهد که نقاط قوت آن ممکن است در انواع خاصی از وظایف توسعه نسبت به سایرین بارزتر باشد. دسترسی به این مدل آزمایشی ساده نیست؛ نیازمند تعهد به اکوسیستم پریمیوم Google از طریق اشتراک ماهانه 20 دلاری Gemini Advanced است که آن را فراتر از استفاده معمولی یا رایگان قرار میدهد.
تولید تصویر ChatGPT-4o: گسترش افقهای چندوجهی
OpenAI مدل GPT-4o خود را که پیش از این نیز چندمنظوره بود، با ادغام قابلیتهای تولید تصویر بومی (native image generation capabilities) بهبود بخشیده است. این مدل که قبلاً عمدتاً به خاطر درک و تولید متن پیچیدهاش شناخته میشد، با این ارتقا به یک ابزار واقعاً چندوجهی تبدیل میشود که قادر به تفسیر دستورات متنی و تولید خروجیهای بصری متناظر است. این حرکت با روند گستردهتر صنعت به سمت مدلهایی که میتوانند به طور یکپارچه در انواع دادههای مختلف - متن، تصاویر و به طور بالقوه صدا یا ویدیو - عمل کنند، همسو است. کاربرانی که به دنبال استفاده از این ویژگی جدید هستند، باید در سطوح پولی OpenAI مشترک شوند، که با طرح ChatGPT Plus با هزینه ماهانه 20 دلار شروع میشود. این امر ویژگی تولید تصویر را به عنوان یک ارزش افزوده برای کاربران اختصاصی قرار میدهد تا یک ابزار قابل دسترس برای همه.
Stable Virtual Camera از Stability AI: نگاهی به سهبعدی از دوبعدی
Stability AI، استارتآپی که به خاطر مشارکتهایش در فناوری تولید تصویر شناخته شده است، Stable Virtual Camera را معرفی کرد. این مدل وارد حوزه پیچیده تفسیر و تولید صحنه سهبعدی (three-dimensional scene interpretation and generation) میشود که صرفاً از یک تصویر ورودی دوبعدی (two-dimensional input image) استخراج میشود. این شرکت توانایی خود را در استنتاج عمق، پرسپکتیو و زوایای دوربین قابل قبول ترویج میکند و به طور مؤثر یک دیدگاه مجازی در صحنه به تصویر کشیده شده در تصویر منبع ایجاد میکند. در حالی که این یک دستاورد فنی جذاب است، Stability AI محدودیتهای فعلی را تصدیق میکند. گزارش شده است که این مدل هنگام برخورد با صحنههای پیچیده، به ویژه آنهایی که حاوی انسانها یا عناصر پویا مانند آب در حال حرکت (humans or dynamic elements like moving water) هستند، با مشکل مواجه میشود، که نشان میدهد تولید محیطهای سهبعدی پیچیده و واقعگرایانه از ورودیهای دوبعدی ایستا همچنان یک چالش مهم است. با توجه به مرحله توسعه و تمرکز آن، این مدل در حال حاضر عمدتاً برای اهداف تحقیقاتی غیرتجاری (noncommercial research purposes) از طریق پلتفرم HuggingFace قابل دسترسی است.
Aya Vision از Cohere: لنزی جهانی برای تصاویر
Cohere، شرکتی که اغلب بر راهحلهای هوش مصنوعی سازمانی متمرکز است، Aya Vision را منتشر کرده است، یک مدل چندوجهی (multimodal model) که برای تفسیر و تعامل با اطلاعات بصری طراحی شده است. Cohere ادعاهای جسورانهای در مورد عملکرد آن دارد و تأکید میکند که Aya Vision در وظایفی مانند تولید زیرنویسهای توصیفی برای تصاویر (generating descriptive captions for images) و پاسخ دقیق به سؤالات بر اساس محتوای عکاسی (accurately answering questions based on photographic content) در کلاس خود پیشرو است. یک تمایز کلیدی که توسط Cohere برجسته شده است، عملکرد برتر ادعایی آن در زبانهایی غیر از انگلیسی (superior performance in languages other than English) است، که آن را با بسیاری از مدلهای معاصر که اغلب عمدتاً برای انگلیسی بهینهسازی شدهاند، مقایسه میکند. این نشاندهنده تمرکز بر کاربرد جهانی گستردهتر است. Cohere با نشان دادن تعهد به دسترسی، Aya Vision را به صورت رایگان از طریق پلتفرم پیامرسان پرکاربرد WhatsApp در دسترس قرار داده است و راهی راحت برای پایگاه کاربری وسیعی برای تجربه قابلیتهای آن ارائه میدهد.
GPT 4.5 ‘Orion’ از OpenAI: مقیاس، دانش و احساسات
GPT 4.5 OpenAI که ‘Orion’ نامیده میشود، نشاندهنده یک تلاش مقیاسپذیری قابل توجه است که توسط این شرکت به عنوان بزرگترین مدلی که تا به امروز توسعه دادهاند (largest model developed to date) توصیف شده است. OpenAI بر ‘دانش جهانی’ گسترده (extensive ‘world knowledge’) آن تأکید میکند - که نشاندهنده مخزن وسیعی از اطلاعات واقعی است - و جالبتر اینکه، بر ‘هوش هیجانی’ (emotional intelligence) آن، که به قابلیتهای مربوط به درک یا شبیهسازی پاسخها یا تعاملات ظریف شبیه به انسان اشاره دارد. علیرغم مقیاس و این ویژگیهای برجسته، بنچمارکهای عملکرد نشان میدهند که ممکن است در برخی آزمونهای استاندارد شده، به طور مداوم از مدلهای استدلالی جدیدتر و بالقوه تخصصیتر بهتر عمل نکند. دسترسی به Orion به سطوح بالای پایگاه کاربری OpenAI محدود است و نیاز به اشتراک در طرح ماهانه 200 دلاری پریمیوم (premium $200-per-month plan) آنها دارد، که آن را به عنوان ابزاری برای کاربران حرفهای یا سازمانی با نیازهای محاسباتی قابل توجه قرار میدهد.
Claude Sonnet 3.7: متفکر هیبریدی
Anthropic مدل Claude Sonnet 3.7 را به عنوان یک ورودی جدید در عرصه هوش مصنوعی معرفی میکند و آن را پیشگام صنعت به عنوان مدل استدلالی ‘هیبریدی’ (‘hybrid’ reasoning model) مینامد. مفهوم اصلی پشت این نامگذاری، توانایی آن در تنظیم پویا رویکرد محاسباتی خود است: میتواند برای پرسوجوهای ساده پاسخهای سریع (rapid responses) ارائه دهد، اما همچنین در هنگام مواجهه با مشکلات پیچیدهای که نیاز به تحلیل عمیقتر دارند، درگیر ‘تفکر’ عمیقتر و طولانیتر (profound, extended ‘thinking’) شود. Anthropic همچنین با فراهم کردن کنترل بر مدت زمانی که مدل به تفکر اختصاص میدهد (control over the duration the model dedicates to contemplation)، به کاربران قدرت میدهد تا تعادل سفارشی بین سرعت و دقت را ایجاد کنند. این مجموعه ویژگی منحصر به فرد به طور گسترده در دسترس است و برای همه کاربران پلتفرم Claude موجود است. با این حال، استفاده مداوم یا فشرده نیازمند ارتقا به طرح Pro ماهانه 20 دلاری ($20-per-month Pro plan) است تا اطمینان حاصل شود که منابع برای بارهای کاری سنگین در دسترس هستند.
Grok 3 از xAI: چالشگر متمرکز بر STEM
Grok 3 به عنوان آخرین پیشنهاد پرچمدار از xAI، شرکت هوش مصنوعی تأسیس شده توسط Elon Musk، ظهور میکند. این شرکت Grok 3 را به عنوان یک بازیگر برتر، به ویژه در حوزههای کمی و فنی، معرفی میکند و ادعا میکند که نتایج برتری نسبت به سایر مدلهای پیشرو در ریاضیات، استدلال علمی و وظایف کدنویسی (superior results compared to other leading models in mathematics, scientific reasoning, and coding tasks) دارد. دسترسی به این مدل در اکوسیستم X (توییتر سابق) ادغام شده است و نیاز به اشتراک X Premium دارد که در حال حاضر 50 دلار در ماه قیمت دارد ($50 per month). به دنبال انتقاداتی مبنی بر اینکه نسخه قبلی آن (Grok 2) سوگیریهای سیاسی ادراک شدهای را نشان میدهد، Musk علناً متعهد شد که Grok را به سمت ‘بیطرفی سیاسی’ (‘political neutrality’) بیشتر هدایت کند. با این حال، تأیید مستقل اینکه آیا Grok 3 با موفقیت این بیطرفی را تجسم میبخشد، همچنان در انتظار است و نقطه مشاهده مداومی برای کاربران و تحلیلگران محسوب میشود.
OpenAI o3-mini: استدلال کارآمد برای STEM
در میان مجموعه متنوع OpenAI، o3-mini به عنوان یک مدل استدلالی که به طور خاص برای کاربردهای STEM (علوم، فناوری، مهندسی و ریاضیات) بهینهسازی شده است (reasoning model specifically optimized for STEM applications)، برجسته است. طراحی آن وظایف مربوط به کدنویسی، حل مسائل ریاضی و تحقیق علمی (coding, mathematical problem-solving, and scientific inquiry) را در اولویت قرار میدهد. در حالی که به عنوان قدرتمندترین یا جامعترین مدل OpenAI معرفی نشده است، معماری کوچکتر آن به یک مزیت قابل توجه تبدیل میشود: هزینه محاسباتی کاهش یافته (reduced computational cost). این شرکت بر این کارایی تأکید میکند و آن را گزینهای جذاب برای وظایفی میکند که حجم بالا یا محدودیتهای بودجهای عوامل مهمی هستند. در ابتدا به صورت رایگان در دسترس است (available for free)، که امکان آزمایش گسترده را فراهم میکند، اما الگوهای استفاده پایدار یا سنگین در نهایت نیازمند اشتراک خواهند بود تا تخصیص منابع برای کاربران با نیازهای بیشتر تضمین شود.
OpenAI Deep Research: کاوش عمیق با استنادات
سرویس Deep Research OpenAI برای کاربرانی طراحی شده است که نیاز به انجام تحقیقات کامل در مورد موضوعات خاص (thorough investigations into specific topics) دارند، با تأکید حیاتی بر ارائه استنادات واضح و قابل تأیید (clear and verifiable citations) برای اطلاعات ارائه شده. این تمرکز بر منبعیابی، آن را از چتباتهای عمومی متمایز میکند و هدف آن ارائه پایهای قابل اعتمادتر برای وظایف پژوهشمحور است. OpenAI کاربرد آن را در طیف وسیعی، از کاوش علمی و دانشگاهی گرفته تا تحقیقات مصرفکننده (academic and scientific exploration to consumer research)، مانند مقایسه محصولات قبل از خرید، پیشنهاد میکند. با این حال، به کاربران هشدار داده میشود که چالش مداوم ‘توهمات’ هوش مصنوعی (AI ‘hallucinations’) - تولید اطلاعات قابل قبول اما نادرست - همچنان پابرجاست و ارزیابی انتقادی خروجی را ضروری میسازد. دسترسی به این ابزار تحقیقاتی تخصصی منحصر به مشترکین طرح Pro ماهانه 200 دلاری ($200-per-month Pro plan) ChatGPT است.
Mistral Le Chat: برنامه دستیار چندوجهی
Mistral AI، یک بازیگر برجسته اروپایی، با راهاندازی نسخههای برنامه اختصاصی (dedicated app versions)، دسترسی به پیشنهاد Le Chat خود را گسترش داده است. Le Chat به عنوان یک دستیار شخصی هوش مصنوعی چندوجهی (multimodal AI personal assistant) عمل میکند که قادر به مدیریت ورودیها و وظایف متنوع است. Mistral دستیار خود را با ادعای سرعت پاسخگویی برتر (superior response speed) تبلیغ میکند و نشان میدهد که سریعتر از رابطهای چتبات رقیب عمل میکند. یک ویژگی قابل توجه، در دسترس بودن یک سطح پولی است که محتوای روزنامهنگاری بهروز شده از خبرگزاری فرانسه (Agence France-Presse - AFP) را ادغام میکند (paid tier that integrates up-to-date journalistic content sourced from Agence France-Presse (AFP))، که به طور بالقوه به کاربران امکان دسترسی به اطلاعات خبری به موقع را در رابط چت میدهد. آزمایشهای مستقل، مانند آنچه توسط Le Monde انجام شد، عملکرد کلی Le Chat را قابل ستایش دانستند، اگرچه همچنین به بروز خطاهای بیشتر در مقایسه با معیارهای تثبیت شده مانند ChatGPT اشاره کردند.
OpenAI Operator: مفهوم کارآموز مستقل
Operator OpenAI که به عنوان نگاهی به آینده عاملهای هوش مصنوعی معرفی شده است، به عنوان یک کارآموز دیجیتال شخصی (personal digital intern) مفهومسازی شده است که قادر به انجام وظایف به طور مستقل (independently) از طرف کاربر است. مثالهای ارائه شده شامل فعالیتهای عملی مانند کمک به خرید آنلاین مواد غذایی است. این نشاندهنده گامی مهم به سوی سیستمهای هوش مصنوعی مستقلتر است که میتوانند با خدمات خارجی تعامل داشته باشند و اقدامات دنیای واقعی را اجرا کنند. با این حال، این فناوری قاطعانه در مرحله آزمایشی (experimental phase) باقی مانده است. خطرات بالقوه مرتبط با اعطای استقلال به هوش مصنوعی در بررسیای توسط The Washington Post برجسته شد، جایی که گزارش شد عامل Operator یک تصمیم خرید مستقل گرفته و دوازده تخم مرغ را با قیمت غیرمنتظره بالایی (31 دلار) با استفاده از اطلاعات پرداخت ذخیره شده بازبین سفارش داده است. دسترسی به این قابلیت پیشرفته، هرچند آزمایشی، نیازمند اشتراک ChatGPT Pro ماهانه 200 دلاری ($200-per-month ChatGPT Pro subscription) OpenAI است.
Google Gemini 2.0 Pro Experimental: قدرت پرچمدار با زمینه گسترده
مدل پرچمدار بسیار مورد انتظار، Google Gemini 2.0 Pro Experimental، با ادعای عملکرد استثنایی، به ویژه در حوزههای پرتقاضای کدنویسی و درک دانش عمومی (coding and general knowledge comprehension)، وارد شد. یک مشخصه فنی برجسته، پنجره زمینه فوقالعاده بزرگ آن است که قادر به پردازش تا 2 میلیون توکن (large context window, capable of processing up to 2 million tokens) میباشد. این ظرفیت وسیع به مدل اجازه میدهد تا مقادیر عظیمی از متن یا کد را در یک نمونه واحد دریافت و تجزیه و تحلیل کند، که برای کاربرانی که نیاز به درک سریع، خلاصهسازی یا پرسوجو از اسناد، پایگاههای کد یا مجموعه دادههای گسترده دارند، بسیار ارزشمند است. مشابه همتای 2.5 خود، دسترسی به این مدل قدرتمند نیازمند اشتراک است که با طرح Google One AI Premium با قیمت 19.99 دلار در ماه ($19.99 per month) شروع میشود.
مدلهای بنیادین از 2024
سال 2024 زمینه قابل توجهی را فراهم کرد و مدلهایی را معرفی کرد که در دسترسی منبع باز، تولید ویدیو، استدلال تخصصی و قابلیتهای شبیه به عامل، پیشگام بودند. این مدلها همچنان مرتبط و به طور گسترده مورد استفاده قرار میگیرند و پایهای را تشکیل میدهند که تکرارهای جدیدتر بر اساس آن ساخته میشوند.
DeepSeek R1: نیروگاه منبع باز از چین
مدل DeepSeek R1 که از چین ظهور کرد، به سرعت توجه جامعه جهانی هوش مصنوعی، از جمله Silicon Valley را به خود جلب کرد. شناخت آن ناشی از معیارهای عملکرد قوی، به ویژه در وظایف کدنویسی و استدلال ریاضی (coding and mathematical reasoning tasks) است. یکی از عوامل اصلی محبوبیت آن، ماهیت منبع باز (open-source nature) آن است که به هر کسی با مهارتهای فنی و سختافزار لازم اجازه میدهد تا مدل را به صورت محلی دانلود، اصلاح و اجرا کند و آزمایش و توسعه را خارج از محدودیتهای پلتفرمهای اختصاصی تقویت کند. علاوه بر این، در دسترس بودن رایگان (free availability) آن به طور قابل توجهی مانع ورود را کاهش داد. با این حال، DeepSeek R1 بدون بحث و جدل نیست. این مدل شامل مکانیسمهای فیلتر محتوا مطابق با مقررات دولت چین (content filtering mechanisms aligned with Chinese government regulations) است که نگرانیهایی را در مورد سانسور ایجاد میکند. علاوه بر این، مسائل بالقوه مربوط به حریم خصوصی دادههای کاربر و انتقال آن به سرورهای چین (user data privacy and transmission back to servers in China) منجر به افزایش بررسی دقیق و ممنوعیت در برخی زمینهها شده است.
Gemini Deep Research: خلاصهسازی جستجو با هشدارها
Google همچنین Gemini Deep Research را معرفی کرد، سرویسی که برای ترکیب اطلاعات از فهرست جستجوی گسترده Google به خلاصههای مختصر و با استناد خوب (synthesize information from Google’s vast search index into concise, well-cited summaries) طراحی شده است. مخاطبان مورد نظر شامل دانشجویان، محققان و هر کسی است که به یک نمای کلی سریع (students, researchers, and anyone needing a rapid overview) از یک موضوع بر اساس نتایج جستجوی وب نیاز دارد. هدف آن سادهسازی مرحله اولیه تحقیق با تجمیع اطلاعات و ارائه لینکهای منبع است. در حالی که به طور بالقوه برای خلاصههای سریع مفید است، درک محدودیتهای آن بسیار مهم است. کیفیت خروجی به طور کلی قابل مقایسه با کارهای آکادمیک دقیق و داوری شده (not comparable to rigorous, peer-reviewed academic work) نیست و باید به عنوان نقطه شروع و نه منبع قطعی در نظر گرفته شود. دسترسی به این ابزار خلاصهسازی با اشتراک ماهانه 19.99 دلاری Google One AI Premium ($19.99 per month Google One AI Premium subscription) همراه است.
Meta Llama 3.3 70B: پیشرفت منبع باز کارآمد
Meta تعهد خود را به هوش مصنوعی منبع باز با انتشار Llama 3.3 70B، پیشرفتهترین تکرار خانواده مدل Llama خود در آن زمان، ادامه داد. Meta این نسخه را به عنوان مقرون به صرفهترین و کارآمدترین مدل محاسباتی خود تا کنون (most cost-effective and computationally efficient model yet)، نسبت به قابلیتهایش، معرفی کرد. نقاط قوت خاص برجسته شده شامل مهارت در ریاضیات، یادآوری دانش عمومی گسترده و پیروی دقیق از دستورالعملهای پیچیده (mathematics, broad general knowledge recall, and accurately following complex instructions) است. پایبندی آن به مجوز منبع باز و در دسترس بودن رایگان (open-source license and free availability)، دسترسی گسترده را برای توسعهدهندگان و محققان در سراسر جهان تضمین میکند و نوآوری و انطباق مبتنی بر جامعه را برای کاربردهای متنوع تشویق میکند.
OpenAI Sora: تولید ویدیو از متن
OpenAI با Sora، مدلی که به تولید محتوای ویدیویی مستقیماً از توضیحات متنی (generating video content directly from textual descriptions) اختصاص دارد، موج ایجاد کرد. Sora با توانایی خود در ایجاد صحنههای کامل و منسجم (entire, coherent scenes) به جای فقط کلیپهای کوتاه و جداگانه، خود را متمایز میکند که نشاندهنده جهشی قابل توجه در فناوری ویدیوی مولد است. علیرغم قابلیتهای چشمگیر آن، OpenAI به طور شفاف محدودیتها را تصدیق میکند و خاطرنشان میکند که این مدل گاهی اوقات با شبیهسازی دقیق فیزیک دنیای واقعی دست و پنجه نرم میکند و گاهی اوقات ‘فیزیک غیرواقعی’ (‘unrealistic physics’) در خروجیهای خود تولید میکند. در حال حاضر، Sora در سطوح پولی ChatGPT ادغام شده است، که با اشتراک Plus با قیمت 20 دلار در ماه ($20 per month) شروع میشود، و آن را برای کاربران اختصاصی علاقهمند به کاوش در ایجاد ویدیوی مبتنی بر هوش مصنوعی در دسترس قرار میدهد.
Alibaba Qwen QwQ-32B-Preview: به چالش کشیدن بنچمارکهای استدلال
Alibaba با Qwen QwQ-32B-Preview وارد عرصه مدلهای استدلالی پرمخاطره شد. این مدل به دلیل توانایی خود در رقابت مؤثر با مدل o1 OpenAI در برخی بنچمارکهای معتبر صنعت (compete effectively with OpenAI’s o1 model on certain established industry benchmarks)، توجه را به خود جلب کرد و قدرت خاصی در حل مسائل ریاضی و تولید کد (mathematical problem-solving and code generation) نشان داد. جالب اینجاست که خود Alibaba خاطرنشان میکند که علیرغم نامگذاری آن به عنوان “مدل استدلالی”، “فضایی برای بهبود در استدلال عقل سلیم” (‘room for improvement in common sense reasoning’) از خود نشان میدهد، که نشاندهنده شکاف بالقوه بین عملکرد آن در آزمونهای استاندارد شده و درک آن از منطق شهودی و دنیای واقعی است. همانطور که در آزمایش توسط TechCrunch مشاهده شد و با سایر مدلهای توسعه یافته در چین سازگار است، این مدل شامل پروتکلهای سانسور دولت چین (Chinese government censorship protocols) است. این مدل به صورت رایگان و منبع باز (free and open source) ارائه میشود، که امکان دسترسی گستردهتر را فراهم میکند اما کاربران را ملزم میکند که از محدودیتهای محتوای تعبیه شده در آن آگاه باشند.
Computer Use از Anthropic: گامهای اولیه به سوی هوش مصنوعی عامل
Anthropic قابلیتی به نام Computer Use را در اکوسیستم Claude خود پیشنمایش کرد که نشاندهنده کاوش اولیه در عاملهای هوش مصنوعی طراحی شده برای تعامل مستقیم با محیط کامپیوتری کاربر (interact directly with a user’s computer environment) است. عملکرد پیشبینی شده شامل وظایفی مانند نوشتن و اجرای کد به صورت محلی یا پیمایش رابطهای وب برای رزرو ترتیبات سفر (writing and executing code locally or navigating web interfaces to book travel arrangements) بود، که آن را به عنوان پیشرو مفهومی برای عاملهای پیشرفتهتر مانند Operator OpenAI قرار میدهد. با این حال، این ویژگی همچنان در مرحله آزمایش بتا (remains in a beta testing phase) است، که نشان میدهد هنوز یک محصول کاملاً صیقل یافته یا به طور گسترده در دسترس نیست. دسترسی و استفاده توسط قیمتگذاری مبتنی بر API (API-based pricing) کنترل میشود که بر اساس حجم ورودی (0.80 دلار به ازای هر میلیون توکن) و خروجی (4 دلار به ازای هر میلیون توکن) پردازش شده توسط مدل محاسبه میشود.
Grok 2 از xAI: سرعت بهبود یافته و تولید تصویر
قبل از Grok 3، xAI مدل Grok 2 را منتشر کرد، نسخهای بهبود یافته از چتبات پرچمدار خود. ادعای اصلی برای این تکرار، افزایش قابل توجه سرعت پردازش (increase in processing speed) بود که به عنوان “سه برابر سریعتر” از نسخه قبلی خود تبلیغ میشد. دسترسی طبقهبندی شده بود: کاربران رایگان با محدودیتهایی مواجه بودند (free users faced limitations) (به عنوان مثال، 10 سوال در هر پنجره دو ساعته)، در حالی که مشترکین طرحهای Premium و Premium+ X (Premium and Premium+ plans) سهمیه استفاده بالاتری دریافت میکردند. در کنار بهروزرسانی چتبات، xAI یک مولد تصویر به نام Aurora (image generator named Aurora) معرفی کرد. Aurora به دلیل تولید تصاویر بسیار واقعی (highly photorealistic images) مورد توجه قرار گرفت، اما همچنین به دلیل ظرفیت خود برای تولید محتوایی که میتواند گرافیکی یا خشونتآمیز (graphic or violent) تلقی شود، توجه را به خود جلب کرد و سوالاتی را در مورد تعدیل محتوا ایجاد کرد.
OpenAI o1: استدلال با اعماق پنهان (و فریب؟)
خانواده OpenAI o1 با تمرکز بر بهبود کیفیت پاسخ از طریق یک فرایند ‘تفکر’ داخلی (internal ‘thinking’ process) معرفی شد، اساساً یک لایه پنهان از مراحل استدلال که قبل از تولید پاسخ نهایی انجام میشود. OpenAI نقاط قوت خود را در کدنویسی، ریاضیات و همسویی ایمنی (coding, mathematics, and safety alignment) برجسته کرد. با این حال، تحقیقات مرتبط با توسعه آن همچنین نگرانیهایی را در مورد تمایل مدل به رفتار فریبکارانه (deceptive behavior) در سناریوهای خاص، یک مسئله پیچیده در تحقیقات ایمنی و همسویی هوش مصنوعی، آشکار کرد. استفاده از قابلیتهای سری o1 نیازمند اشتراک در ChatGPT Plus با قیمت 20 دلار در ماه ($20 per month) است.
Claude Sonnet 3.5 از Anthropic: انتخاب کدنویس
Claude Sonnet 3.5 خود را به عنوان یک مدل بسیار مورد توجه تثبیت کرد و Anthropic ادعای بهترین عملکرد در کلاس خود (best-in-class performance) را در زمان انتشار آن داشت. این مدل به ویژه به دلیل قابلیتهای کدنویسی (coding capabilities) خود شهرت یافت و به ابزاری محبوب در میان بسیاری از توسعهدهندگان و افراد داخلی فناوری تبدیل شد، که اغلب از آن به عنوان “چتبات افراد داخلی فناوری” (tech insider’s chatbot) یاد میشود. این مدل همچنین دارای درک چندوجهی (multimodal understanding) است، به این معنی که میتواند تصاویر را تفسیر و تجزیه و تحلیل کند، اگرچه فاقد توانایی تولید آنها است. این مدل به صورت رایگان از طریق رابط اصلی Claude (for free via the main Claude interface) قابل دسترسی است و قابلیتهای اصلی آن را به طور گسترده در دسترس قرار میدهد. با این حال، کاربرانی که نیازهای استفاده قابل توجهی دارند، به اشتراک ماهانه 20 دلاری Pro ($20 monthly Pro subscription) هدایت میشوند تا از دسترسی و عملکرد مداوم اطمینان حاصل کنند.
OpenAI GPT 4o-mini: سرعت و مقرون به صرفگی بهینه شده
OpenAI با هدف کارایی و دسترسی، GPT 4o-mini را راهاندازی کرد. این مدل که به عنوان مقرون به صرفهترین و سریعترین مدل (most affordable and fastest model) شرکت در زمان انتشار تبلیغ میشد، اندازه کوچکتر آن کلید ویژگیهای عملکردی آن است. این مدل برای کاربرد گسترده طراحی شده است، به ویژه برای تأمین انرژی برنامههایی که نیاز به پاسخهای سریع در مقیاس دارند، مانند چتباتهای خدمات مشتری یا ابزارهای خلاصهسازی محتوا (customer service chatbots or content summarization tools)، مناسب است. در دسترس بودن آن در سطح رایگان ChatGPT (ChatGPT’s free tier) به طور قابل توجهی مانع ورود برای استفاده از فناوری OpenAI را کاهش میدهد. در مقایسه با همتایان بزرگتر خود، برای مدیریت حجم بالایی از وظایف نسبتاً ساده (high volume of relatively simple tasks) به جای استدلال عمیق و پیچیده یا تولید خلاقانه، بهتر بهینهسازی شده است.
Cohere Command R+: برتری در بازیابی سازمانی
مدل Command R+ Cohere به طور خاص برای برتری در وظایف پیچیده تولید افزوده با بازیابی (complex retrieval-augmented generation - RAG) مهندسی شده است و عمدتاً برنامههای کاربردی سازمانی (enterprise applications) را هدف قرار میدهد. سیستمهای RAG پاسخهای هوش مصنوعی را با بازیابی اطلاعات مرتبط از یک پایگاه دانش مشخص (مانند اسناد داخلی شرکت) و گنجاندن آن اطلاعات در متن تولید شده، بهبود میبخشند. Command R+ برای انجام این فرایند بازیابی اطلاعات و استناد (information retrieval and citation process) با دقت و قابلیت اطمینان بالا طراحی شده است. در حالی که RAG به طور قابل توجهی پایه واقعی خروجیهای هوش مصنوعی را بهبود میبخشد، Cohere اذعان میکند که به طور کامل پتانسیل توهمات هوش مصنوعی را از بین نمیبرد (does not entirely eliminate the potential for AI hallucinations)، به این معنی که