آیا GPT-4.5 یک شکست بود؟

مقیاس و دامنه GPT-4.5

GPT-4.5 نمایانگر بلندپروازانه‌ترین تلاش OpenAI تا به امروز از نظر اندازه است. اگرچه جزئیات دقیقی در مورد معماری و داده‌های آموزشی آن کمیاب است، اما مشخص است که فرآیند آموزش آن به قدری از نظر محاسباتی فشرده بود که توزیع در چندین مرکز داده را ضروری می‌کرد. این به تنهایی به منابع عظیمی که در توسعه آن ریخته شده است اشاره دارد.

ساختار قیمت گذاری این مدل، موقعیت آن را به عنوان یک محصول ممتاز بیشتر نشان می‌دهد. هزینه‌ها به طور قابل توجهی بالاتر از مدل‌های قبلی آن است، به طوری که 15 تا 30 برابر بیشتر از GPT-4o، 3 تا 5 برابر بیشتر از o1 و 10 تا 25 برابر بیشتر از Claude 3.7 Sonnet هزینه دارد. دسترسی در حال حاضر به مشترکین ChatGPT Pro (با هزینه گزاف 200 دلار در ماه) و مشتریان API که مایل به پرداخت بر اساس هر توکن هستند، محدود شده است.

با این حال، افزایش عملکرد، حداقل در برخی زمینه‌ها، کاملاً با برچسب قیمت مطابقت نداشته است. معیارهای اولیه تنها پیشرفت‌های متوسطی را نسبت به GPT-4o نشان دادند و حتی نشان دادند که GPT-4.5 در وظایف استدلالی از مدل‌هایی مانند o1 و o3-mini عقب‌تر است.

درک هدف مورد نظر GPT-4.5

بسیار مهم است که بدانیم OpenAI هرگز به صراحت GPT-4.5 را به عنوان مدل پرچمدار و همه منظوره خود به بازار عرضه نکرد. در واقع، نسخه‌های اولیه پست وبلاگ آنها روشن کردند که قرار نیست یک “مدل مرزی” باشد که مرزهای مطلق توانایی را جابجا کند. علاوه بر این، این مدل در درجه اول به عنوان یک مدل استدلالی طراحی نشده است، که مقایسه مستقیم با مدل‌های بهینه شده برای آن هدف (مانند o3 و DeepSeek-R1) را تا حدودی گمراه کننده می‌کند.

OpenAI نشان داده است که GPT-4.5 آخرین مدل غیر زنجیره ای-تفکر (non-chain-of-thought) آن خواهد بود. این بدان معناست که آموزش آن به شدت بر تعبیه مقادیر زیادی از دانش جهانی و همسویی با ترجیحات کاربر متمرکز شده است، نه بر توسعه توانایی‌های استدلال پیچیده.

جایی که GPT-4.5 ممکن است بدرخشد: دانش و ظرافت

مزیت اصلی مدل‌های بزرگ‌تر اغلب در ظرفیت گسترش یافته آنها برای کسب دانش نهفته است. GPT-4.5، مطابق با این اصل، در مقایسه با همتایان کوچکتر خود، تمایل کمتری به توهم نشان می‌دهد. این امر آن را به طور بالقوه در سناریوهایی که پایبندی دقیق به حقایق و اطلاعات متنی بسیار مهم است، ارزشمند می‌کند.

علاوه بر این، GPT-4.5 توانایی پیشرفته‌ای را برای پیروی از دستورالعمل‌ها و ترجیحات کاربر نشان می‌دهد. این امر در نمایش‌های مختلف توسط OpenAI نشان داده شده و توسط تجربیات کاربر که به صورت آنلاین به اشتراک گذاشته شده است، تأیید شده است. به نظر می‌رسد این مدل ظرافت‌های مقصود کاربر را به طور مؤثرتری درک می‌کند و منجر به خروجی‌های مناسب‌تر و مرتبط‌تر می‌شود.

بحث در مورد کیفیت نثر: ذهنیت و پتانسیل

یک بحث پر جنب و جوش در مورد توانایی GPT-4.5 برای تولید نثر برتر پدید آمده است. برخی از مدیران OpenAI کیفیت خروجی این مدل را تحسین کرده‌اند، و مدیر عامل شرکت، سم آلتمن، حتی پیشنهاد کرد که تعامل با آن، نگاهی اجمالی به “AGI” (هوش عمومی مصنوعی) را برای برخی از آزمایش‌کنندگان تیزبین فراهم می‌کند.

با این حال، واکنش گسترده‌تر به طور مشخصی متفاوت بوده است. یکی از بنیانگذاران OpenAI، آندری کارپاتی، پیشرفت‌هایی را در وظایفی که کمتر به استدلال محض متکی هستند، پیش‌بینی کرد و بر حوزه‌هایی مانند “EQ” (هوش هیجانی)، خلاقیت، قیاس‌سازی و طنز تأکید کرد – جنبه‌هایی که اغلب توسط دانش جهانی و درک عمومی محدود می‌شوند.

جالب توجه است، یک نظرسنجی بعدی که توسط کارپاتی انجام شد، ترجیح کلی کاربر را برای پاسخ‌های GPT-4o نسبت به پاسخ‌های GPT-4.5 از نظر کیفیت نوشتار نشان داد. این امر ذهنیت ذاتی در ارزیابی نثر را برجسته می‌کند و نشان می‌دهد که مهندسی پرامپت ماهرانه ممکن است کیفیت قابل مقایسه‌ای را از مدل‌های کوچکتر و کارآمدتر استخراج کند.

خود کارپاتی ابهام نتایج را تصدیق کرد و توضیحات احتمالی مختلفی را پیشنهاد کرد: آزمایش‌کنندگان “با سلیقه بالا” ممکن است پیشرفت‌های ساختاری ظریفی را درک کنند که توسط دیگران نادیده گرفته شده است، مثال‌های آزمایش‌شده ممکن است ایده‌آل نبوده باشند، یا تفاوت‌ها ممکن است به سادگی آنقدر ظریف باشند که در یک نمونه کوچک قابل تشخیص نباشند.

محدودیت‌های مقیاس‌بندی و آینده LLM ها

انتشار GPT-4.5، از برخی جهات، محدودیت‌های بالقوه مقیاس‌بندی ساده مدل‌های آموزش‌دیده بر روی مجموعه داده‌های عظیم را برجسته می‌کند. ایلیا سوتسکور، یکی دیگر از بنیانگذاران OpenAI و دانشمند ارشد سابق، در NeurIPS 2024 به طور مشهور اظهار داشت که “پیش‌آموزش، همانطور که می‌دانیم، بدون شک به پایان خواهد رسید… ما به اوج داده‌ها رسیده‌ایم و دیگر داده‌ای وجود نخواهد داشت. ما باید با داده‌هایی که داریم کنار بیاییم. فقط یک اینترنت وجود دارد.”

بازده نزولی مشاهده شده با GPT-4.5 گواهی بر چالش‌های مقیاس‌بندی مدل‌های همه منظوره است که عمدتاً بر روی داده‌های اینترنتی آموزش داده شده‌اند و برای همسویی از طریق یادگیری تقویتی از بازخورد انسانی (RLHF) تنظیم دقیق شده‌اند.

به نظر می‌رسد مرز بعدی برای مدل‌های زبان بزرگ مقیاس‌بندی زمان آزمون (یا مقیاس‌بندی زمان استنتاج) باشد. این شامل آموزش مدل‌ها برای “فکر کردن” برای مدت زمان طولانی‌تر با تولید توکن‌های زنجیره تفکر (CoT) است. مقیاس‌بندی زمان آزمون توانایی مدل را برای مقابله با مسائل استدلالی پیچیده افزایش می‌دهد و عامل کلیدی در موفقیت مدل‌هایی مانند o1 و R1 بوده است.

نه یک شکست، بلکه یک بنیان

در حالی که GPT-4.5 ممکن است انتخاب بهینه برای هر کاری نباشد، مهم است که نقش بالقوه آن را به عنوان یک عنصر اساسی برای پیشرفت‌های آینده تشخیص دهیم. یک پایگاه دانش قوی برای توسعه مدل‌های استدلالی پیچیده‌تر ضروری است.

حتی اگر خود GPT-4.5 به مدل اصلی برای اکثر برنامه‌ها تبدیل نشود، می‌تواند به عنوان یک بلوک ساختمانی حیاتی برای مدل‌های استدلالی بعدی عمل کند. حتی این احتمال وجود دارد که در حال حاضر در مدل‌هایی مانند o3 مورد استفاده قرار گیرد.

همانطور که مارک چن، مدیر ارشد تحقیقات OpenAI، توضیح داد: “شما برای ساختن استدلال بر روی آن به دانش نیاز دارید. یک مدل نمی‌تواند کورکورانه وارد شود و فقط استدلال را از ابتدا یاد بگیرد. بنابراین ما متوجه می‌شویم که این دو پارادایم کاملاً مکمل یکدیگر هستند و فکر می‌کنیم که حلقه‌های بازخوردی روی یکدیگر دارند.”

بنابراین، توسعه GPT-4.5 نه یک بن‌بست، بلکه یک گام استراتژیک در تکامل مداوم مدل‌های زبان بزرگ است. این گواهی بر ماهیت تکراری تحقیقات هوش مصنوعی است، جایی که هر گام، حتی اگر به ظاهر در انزوا ناامید کننده باشد، به پیشرفت گسترده‌تر به سمت سیستم‌های هوش مصنوعی تواناتر و همه‌کاره‌تر کمک می‌کند. اکنون تمرکز به سمت استفاده از این بنیان دانش قوی برای ساخت مدل‌هایی است که نه تنها می‌توانند اطلاعات را به خاطر بیاورند، بلکه با اثربخشی بی‌سابقه‌ای استدلال و مسائل را حل کنند. سفر به سوی هوش مصنوعی واقعاً هوشمند ادامه دارد و GPT-4.5، علیرغم استقبال متفاوت، نقش مهمی در این سفر ایفا می‌کند.
اکنون تمرکز فقط بر این نیست که یک مدل چقدر می‌داند، بلکه بر این است که چقدر می‌تواند از آن دانش استفاده کند. این چالش اصلی است که جامعه هوش مصنوعی با آن دست و پنجه نرم می‌کند و GPT-4.5، در حالی که یک راه حل کامل نیست، بینش‌های ارزشمندی را ارائه می‌دهد و پایه‌ای محکم برای پیشرفت‌های آینده فراهم می‌کند. مسیر پیش رو شامل ترکیبی از رویکردها است: پالایش تکنیک‌های موجود، کاوش معماری‌های جدید، و توسعه روش‌های پیچیده‌تر برای آموزش و ارزیابی. هدف نهایی همچنان یکسان است: ایجاد سیستم‌های هوش مصنوعی که نه تنها می‌توانند زبان انسان را درک و تولید کنند، بلکه به شیوه‌هایی که زمانی قلمرو انحصاری هوش انسانی تلقی می‌شد، استدلال، یادگیری و سازگاری داشته باشند.