پیشرفتهای عملکرد: نگاهی دقیقتر
معیارهای داخلی OpenAI نشان میدهد که GPT-4.5 در چندین زمینهی کلیدی از GPT-4o پیشی گرفته است. یک پیشرفت قابل توجه، عملکرد آن در آزمون چندزبانهی MMMLU (دانش عمومی) است. GPT-4.5 امتیاز 85.1% را کسب کرد، در حالی که GPT-4o امتیاز 81.5% را به دست آورده بود. این نشاندهندهی درک گستردهتر و عمیقتر دانش عمومی در زبانهای مختلف است.
فراتر از آزمونهای استاندارد، OpenAI ادعا میکند که GPT-4.5 کاهش ‘confabulations’ را نشان میدهد، که بیشتر به عنوان توهمات شناخته میشود. این بدان معناست که این مدل کمتر مستعد تولید اطلاعات نادرست یا گمراهکننده است، که یک پیشرفت حیاتی برای کاربردهایی است که به دقت واقعی نیاز دارند. موارد کمتر پاسخهای ساختگی، گامی به سوی قابلیت اطمینان بیشتر است.
تجربهی کاربری نیز بهبود یافته است، اگرچه به میزان کم. ارزیابیهای OpenAI نشان میدهد که کاربران پاسخهای GPT-4.5 را نسبت به پاسخهای GPT-4o در حدود 57 درصد از تعاملات ترجیح میدهند. اگرچه این یک پیروزی قاطع نیست، اما این ترجیح نشاندهندهی بهبود قابل توجهی در کیفیت کلی و ارتباط خروجی مدل است. تعاملات طبیعیتر و همسو با انتظارات کاربر هستند.
جهش قابل توجه دیگر در دقت QA ساده مشاهده میشود. در اینجا، GPT-4.5 امتیاز 62.5% را کسب میکند، که افزایش قابل توجهی نسبت به 38.2% GPT-4o دارد. این نشاندهندهی بهبود قابل توجهی در توانایی مدل برای ارائهی پاسخهای دقیق به سوالات ساده است، که نشاندهندهی قابلیتهای درک و بازیابی پیشرفته است.
ضریب هوش هیجانی: تعاملی شبیه انسان
GPT-4.5 خود را نه تنها از طریق معیارهای عملکرد خام، بلکه از طریق ضریب هوش هیجانی (EQ) پیشرفتهی خود متمایز میکند. این مدل به گونهای طراحی شده است که لحنی طبیعیتر و همدلانهتر داشته باشد و باعث شود تعاملات کمتر رباتیک و جذابتر به نظر برسند. این یک گام مهم در جهت ایجاد هوش مصنوعی است که در ارتباطات خود بیشتر شبیه انسان باشد.
- لحن طبیعی: مکالمات روانتر جریان مییابند، با پاسخهایی که الگوهای مکالمهی انسانی را بهتر تقلید میکنند.
- پاسخهای همدلانه: این مدل ظرفیت بیشتری برای درک و پاسخ به زیرمتنهای عاطفی یک مکالمه نشان میدهد.
- تعاملات جذاب: تجربهی کلی به گونهای طراحی شده است که جذابتر باشد، توجه کاربر را جلب کند و تعامل مثبتتری را تقویت کند.
این EQ پیشرفته، GPT-4.5 را به ویژه برای کاربردهایی که تعامل شبیه انسان در آنها بسیار مهم است، مناسب میکند. خدمات مشتری، دستیاران مجازی و حتی کاربردهای درمانی میتوانند از این رویکرد ظریفتر و هوشمندتر از نظر عاطفی بهرهمند شوند.
علاوه بر این، GPT-4.5 در ‘steerability’ عالی است. این به توانایی مدل در تفسیر و پاسخ به درخواستهای ظریف با دقت بیشتر اشاره دارد. کاربران مشاهده کردهاند که GPT-4.5 درک قویتری از ظرافتها نشان میدهد، که به آن اجازه میدهد تا پرسوجوهای پیچیده یا مبهم را به طور موثرتری مدیریت کند. این مدل میتواند هدف اصلی یک سوال را بهتر تشخیص دهد، که منجر به پاسخهای مرتبطتر و مفیدتر میشود.
فیل در اتاق: نگرانیهای مربوط به قیمتگذاری
با وجود پیشرفتها، قیمتگذاری GPT-4.5 به یک نقطهی اختلاف اصلی تبدیل شده است. در حالی که این مدل پیشرفتهایی را نسبت به GPT-4o ارائه میدهد، اختلاف هزینه بسیار زیاد است. برای پردازش ورودی، GPT-4.5 تقریباً 30 برابر گرانتر است و برای تولید خروجی، 15 برابر گرانتر است. این مدل قیمتگذاری سوالات جدی در مورد ارزش پیشنهادی مدل جدید ایجاد میکند.
مسئلهی اصلی، کاهش بازده است. در حالی که GPT-4.5 بدون شک بزرگتر و پیچیدهتر از مدل قبلی خود است، به نظر نمیرسد که پیشرفتهای عملکرد به طور متناسب با افزایش هزینه افزایش یابد. این اختلاف باعث شده است که بسیاری در جامعهی هوش مصنوعی این سوال را مطرح کنند که آیا دستاوردهای حاشیهای، افزایش تصاعدی قیمت را توجیه میکند یا خیر.
قیمتگذاری بازدارنده، پیامدهای قابل توجهی برای دسترسی دارد. بسیاری از توسعهدهندگان، به ویژه آنهایی که به طور مستقل یا برای کسبوکارهای کوچکتر کار میکنند، ممکن است GPT-4.5 را به سادگی غیرقابل دسترس بدانند. این امر مانعی برای ورود ایجاد میکند، که به طور بالقوه نوآوری را خفه میکند و پذیرش گستردهی این فناوری را محدود میکند.
یک مثال عملی را در نظر بگیرید: خلاصهسازی یک رمان 300000 کلمهای (تقریباً 450000 توکن) و تولید یک گزارش تحلیلی 50000 توکنی. با GPT-4.5، این کار تقریباً 41.25 دلار هزینه خواهد داشت. همین کار با استفاده از GPT-4 تنها 1.6 دلار هزینه خواهد داشت. این تضاد آشکار، بار مالیای را که GPT-4.5 بر کاربران تحمیل میکند، به ویژه برای پروژههای در مقیاس بزرگ، برجسته میکند.
این استراتژی قیمتگذاری، نگرانیهایی را در مورد مقرون به صرفه بودن و فراگیری در چشمانداز توسعهی هوش مصنوعی ایجاد میکند. نهادهای کوچکتر و محققان فردی ممکن است مجبور شوند گزینههای ارزانتر، اما کمقدرتتر را انتخاب کنند، که به طور بالقوه توانایی آنها را برای رقابت با سازمانهای بزرگتر که میتوانند هزینهی حق بیمه را بپردازند، مختل میکند.
قابلیتهای استدلال: یک کار در حال پیشرفت
در حالی که GPT-4.5 پیشرفتهایی را در چندین زمینه نشان میدهد، مهم است که محدودیتهای آن را نیز بشناسیم. این مدل با استفاده از پیشآموزش، تنظیم دقیق نظارتشده و یادگیری تقویتی از بازخورد انسانی (RLHF) توسعه یافته است. با این حال، هنوز برای وظایف استدلال پیشرفته بهینهسازی نشده است.
این بدان معناست که نسخهی فعلی پیشرفتهای قابل توجهی در حوزههایی که به شدت به مهارتهای استدلال قوی متکی هستند، مانند ریاضیات و کدنویسی، به ارمغان نمیآورد. این حوزهها به سطح عمیقتری از استنتاج منطقی و حل مسئله نیاز دارند که GPT-4.5، در وضعیت فعلی خود، به طور کامل از آن برخوردار نیست.
برای وظایفی که به قابلیتهای استدلال قوی نیاز دارند، GPT-4o همچنان مدل پیشرو است. به نظر میرسد که استراتژی OpenAI شامل یک رویکرد مرحلهای است، به طوری که نسخهی اولیهی GPT-4.5 بر حوزههایی مانند دانش عمومی، تجربهی کاربری و هوش هیجانی متمرکز است. این شرکت احتمالاً تمرکز خود را به سمت اعمال آموزش RL اضافی به GPT-4.5 به طور خاص برای افزایش قابلیتهای استدلال آن در تکرارهای بعدی تغییر خواهد داد. این نشاندهندهی تعهد به بهبود مستمر است، به طوری که بهروزرسانیهای آینده به طور بالقوه به محدودیتهای فعلی در وظایف فشردهی استدلال میپردازند.
انتظار میرود که پیشرفتهای آینده این شکاف را کاهش دهند و در نهایت GPT-4.5 را به عنوان یک رهبر در برنامههای کاربردی مبتنی بر استدلال نیز قرار دهند.
به طور کلی:
انتشار GPT-4.5 تصویر پیچیدهای را ارائه میدهد. این مدل پیشرفتهایی را در زمینههای خاص، به ویژه از نظر تجربهی کاربری و هوش هیجانی، نشان میدهد. با این حال، مدل قیمتگذاری نگرانیهای قابل توجهی را در مورد دسترسی و ارزش پیشنهادی کلی ایجاد میکند. در حالی که این مدل نشاندهندهی یک گام رو به جلو است، مقرون به صرفه بودن آن همچنان موضوع بحث در جامعهی هوش مصنوعی است. محدودیتها در قابلیتهای استدلال نیز فرآیند توسعهی مداوم را برجسته میکند، به طوری که انتظار میرود بهروزرسانیهای آینده به این کاستیها رسیدگی کنند. مسیر GPT-4.5 به نحوهی مدیریت OpenAI در تعادل بین عملکرد، هزینه و دسترسی بستگی دارد، که در نهایت تأثیر آن را بر چشمانداز گستردهتر هوش مصنوعی تعیین میکند.