GPT-4.5 OpenAI: ارتقای پرهزینه

پیشرفت‌های عملکرد: نگاهی دقیق‌تر

معیارهای داخلی OpenAI نشان می‌دهد که GPT-4.5 در چندین زمینه‌ی کلیدی از GPT-4o پیشی گرفته است. یک پیشرفت قابل توجه، عملکرد آن در آزمون چندزبانه‌ی MMMLU (دانش عمومی) است. GPT-4.5 امتیاز 85.1% را کسب کرد، در حالی که GPT-4o امتیاز 81.5% را به دست آورده بود. این نشان‌دهنده‌ی درک گسترده‌تر و عمیق‌تر دانش عمومی در زبان‌های مختلف است.

فراتر از آزمون‌های استاندارد، OpenAI ادعا می‌کند که GPT-4.5 کاهش ‘confabulations’ را نشان می‌دهد، که بیشتر به عنوان توهمات شناخته می‌شود. این بدان معناست که این مدل کمتر مستعد تولید اطلاعات نادرست یا گمراه‌کننده است، که یک پیشرفت حیاتی برای کاربردهایی است که به دقت واقعی نیاز دارند. موارد کمتر پاسخ‌های ساختگی، گامی به سوی قابلیت اطمینان بیشتر است.

تجربه‌ی کاربری نیز بهبود یافته است، اگرچه به میزان کم. ارزیابی‌های OpenAI نشان می‌دهد که کاربران پاسخ‌های GPT-4.5 را نسبت به پاسخ‌های GPT-4o در حدود 57 درصد از تعاملات ترجیح می‌دهند. اگرچه این یک پیروزی قاطع نیست، اما این ترجیح نشان‌دهنده‌ی بهبود قابل توجهی در کیفیت کلی و ارتباط خروجی مدل است. تعاملات طبیعی‌تر و همسو با انتظارات کاربر هستند.

جهش قابل توجه دیگر در دقت QA ساده مشاهده می‌شود. در اینجا، GPT-4.5 امتیاز 62.5% را کسب می‌کند، که افزایش قابل توجهی نسبت به 38.2% GPT-4o دارد. این نشان‌دهنده‌ی بهبود قابل توجهی در توانایی مدل برای ارائه‌ی پاسخ‌های دقیق به سوالات ساده است، که نشان‌دهنده‌ی قابلیت‌های درک و بازیابی پیشرفته است.

ضریب هوش هیجانی: تعاملی شبیه انسان

GPT-4.5 خود را نه تنها از طریق معیارهای عملکرد خام، بلکه از طریق ضریب هوش هیجانی (EQ) پیشرفته‌ی خود متمایز می‌کند. این مدل به گونه‌ای طراحی شده است که لحنی طبیعی‌تر و همدلانه‌تر داشته باشد و باعث شود تعاملات کمتر رباتیک و جذاب‌تر به نظر برسند. این یک گام مهم در جهت ایجاد هوش مصنوعی است که در ارتباطات خود بیشتر شبیه انسان باشد.

  • لحن طبیعی: مکالمات روان‌تر جریان می‌یابند، با پاسخ‌هایی که الگوهای مکالمه‌ی انسانی را بهتر تقلید می‌کنند.
  • پاسخ‌های همدلانه: این مدل ظرفیت بیشتری برای درک و پاسخ به زیرمتن‌های عاطفی یک مکالمه نشان می‌دهد.
  • تعاملات جذاب: تجربه‌ی کلی به گونه‌ای طراحی شده است که جذاب‌تر باشد، توجه کاربر را جلب کند و تعامل مثبت‌تری را تقویت کند.

این EQ پیشرفته، GPT-4.5 را به ویژه برای کاربردهایی که تعامل شبیه انسان در آن‌ها بسیار مهم است، مناسب می‌کند. خدمات مشتری، دستیاران مجازی و حتی کاربردهای درمانی می‌توانند از این رویکرد ظریف‌تر و هوشمندتر از نظر عاطفی بهره‌مند شوند.

علاوه بر این، GPT-4.5 در ‘steerability’ عالی است. این به توانایی مدل در تفسیر و پاسخ به درخواست‌های ظریف با دقت بیشتر اشاره دارد. کاربران مشاهده کرده‌اند که GPT-4.5 درک قوی‌تری از ظرافت‌ها نشان می‌دهد، که به آن اجازه می‌دهد تا پرس‌وجوهای پیچیده یا مبهم را به طور موثرتری مدیریت کند. این مدل می‌تواند هدف اصلی یک سوال را بهتر تشخیص دهد، که منجر به پاسخ‌های مرتبط‌تر و مفیدتر می‌شود.

فیل در اتاق: نگرانی‌های مربوط به قیمت‌گذاری

با وجود پیشرفت‌ها، قیمت‌گذاری GPT-4.5 به یک نقطه‌ی اختلاف اصلی تبدیل شده است. در حالی که این مدل پیشرفت‌هایی را نسبت به GPT-4o ارائه می‌دهد، اختلاف هزینه بسیار زیاد است. برای پردازش ورودی، GPT-4.5 تقریباً 30 برابر گران‌تر است و برای تولید خروجی، 15 برابر گران‌تر است. این مدل قیمت‌گذاری سوالات جدی در مورد ارزش پیشنهادی مدل جدید ایجاد می‌کند.

مسئله‌ی اصلی، کاهش بازده است. در حالی که GPT-4.5 بدون شک بزرگتر و پیچیده‌تر از مدل قبلی خود است، به نظر نمی‌رسد که پیشرفت‌های عملکرد به طور متناسب با افزایش هزینه افزایش یابد. این اختلاف باعث شده است که بسیاری در جامعه‌ی هوش مصنوعی این سوال را مطرح کنند که آیا دستاوردهای حاشیه‌ای، افزایش تصاعدی قیمت را توجیه می‌کند یا خیر.

قیمت‌گذاری بازدارنده، پیامدهای قابل توجهی برای دسترسی دارد. بسیاری از توسعه‌دهندگان، به ویژه آن‌هایی که به طور مستقل یا برای کسب‌وکارهای کوچکتر کار می‌کنند، ممکن است GPT-4.5 را به سادگی غیرقابل دسترس بدانند. این امر مانعی برای ورود ایجاد می‌کند، که به طور بالقوه نوآوری را خفه می‌کند و پذیرش گسترده‌ی این فناوری را محدود می‌کند.

یک مثال عملی را در نظر بگیرید: خلاصه‌سازی یک رمان 300000 کلمه‌ای (تقریباً 450000 توکن) و تولید یک گزارش تحلیلی 50000 توکنی. با GPT-4.5، این کار تقریباً 41.25 دلار هزینه خواهد داشت. همین کار با استفاده از GPT-4 تنها 1.6 دلار هزینه خواهد داشت. این تضاد آشکار، بار مالی‌ای را که GPT-4.5 بر کاربران تحمیل می‌کند، به ویژه برای پروژه‌های در مقیاس بزرگ، برجسته می‌کند.

این استراتژی قیمت‌گذاری، نگرانی‌هایی را در مورد مقرون به صرفه بودن و فراگیری در چشم‌انداز توسعه‌ی هوش مصنوعی ایجاد می‌کند. نهادهای کوچکتر و محققان فردی ممکن است مجبور شوند گزینه‌های ارزان‌تر، اما کم‌قدرت‌تر را انتخاب کنند، که به طور بالقوه توانایی آن‌ها را برای رقابت با سازمان‌های بزرگتر که می‌توانند هزینه‌ی حق بیمه را بپردازند، مختل می‌کند.

قابلیت‌های استدلال: یک کار در حال پیشرفت

در حالی که GPT-4.5 پیشرفت‌هایی را در چندین زمینه نشان می‌دهد، مهم است که محدودیت‌های آن را نیز بشناسیم. این مدل با استفاده از پیش‌آموزش، تنظیم دقیق نظارت‌شده و یادگیری تقویتی از بازخورد انسانی (RLHF) توسعه یافته است. با این حال، هنوز برای وظایف استدلال پیشرفته بهینه‌سازی نشده است.

این بدان معناست که نسخه‌ی فعلی پیشرفت‌های قابل توجهی در حوزه‌هایی که به شدت به مهارت‌های استدلال قوی متکی هستند، مانند ریاضیات و کدنویسی، به ارمغان نمی‌آورد. این حوزه‌ها به سطح عمیق‌تری از استنتاج منطقی و حل مسئله نیاز دارند که GPT-4.5، در وضعیت فعلی خود، به طور کامل از آن برخوردار نیست.

برای وظایفی که به قابلیت‌های استدلال قوی نیاز دارند، GPT-4o همچنان مدل پیشرو است. به نظر می‌رسد که استراتژی OpenAI شامل یک رویکرد مرحله‌ای است، به طوری که نسخه‌ی اولیه‌ی GPT-4.5 بر حوزه‌هایی مانند دانش عمومی، تجربه‌ی کاربری و هوش هیجانی متمرکز است. این شرکت احتمالاً تمرکز خود را به سمت اعمال آموزش RL اضافی به GPT-4.5 به طور خاص برای افزایش قابلیت‌های استدلال آن در تکرارهای بعدی تغییر خواهد داد. این نشان‌دهنده‌ی تعهد به بهبود مستمر است، به طوری که به‌روزرسانی‌های آینده به طور بالقوه به محدودیت‌های فعلی در وظایف فشرده‌ی استدلال می‌پردازند.
انتظار می‌رود که پیشرفت‌های آینده این شکاف را کاهش دهند و در نهایت GPT-4.5 را به عنوان یک رهبر در برنامه‌های کاربردی مبتنی بر استدلال نیز قرار دهند.

به طور کلی:

انتشار GPT-4.5 تصویر پیچیده‌ای را ارائه می‌دهد. این مدل پیشرفت‌هایی را در زمینه‌های خاص، به ویژه از نظر تجربه‌ی کاربری و هوش هیجانی، نشان می‌دهد. با این حال، مدل قیمت‌گذاری نگرانی‌های قابل توجهی را در مورد دسترسی و ارزش پیشنهادی کلی ایجاد می‌کند. در حالی که این مدل نشان‌دهنده‌ی یک گام رو به جلو است، مقرون به صرفه بودن آن همچنان موضوع بحث در جامعه‌ی هوش مصنوعی است. محدودیت‌ها در قابلیت‌های استدلال نیز فرآیند توسعه‌ی مداوم را برجسته می‌کند، به طوری که انتظار می‌رود به‌روزرسانی‌های آینده به این کاستی‌ها رسیدگی کنند. مسیر GPT-4.5 به نحوه‌ی مدیریت OpenAI در تعادل بین عملکرد، هزینه و دسترسی بستگی دارد، که در نهایت تأثیر آن را بر چشم‌انداز گسترده‌تر هوش مصنوعی تعیین می‌کند.