جستجوی هوش مصنوعی عمومی: آیا نزدیکیم؟

شبکه های عصبی - شبیه سازی مغز انسان

مغز انسان، سرچشمه هوش، یک شبکه پیچیده از میلیاردها نورون است. اولین ‘گوی اژدها’ فنی، تقلید دقیق از این شگفتی بیولوژیکی است: شبکه های عصبی مصنوعی (ANN). به زبان ساده، ANN ها تلاش می کنند تا یک شبکه مجازی از ‘نورون ها’ را با استفاده از کد کامپیوتری و مدل های ریاضی بسازند، به این امید که توانایی مغز انسان در پردازش اطلاعات و یادگیری دانش را تکرار کنند. داده ها از لایه ورودی جریان می یابند، پردازش پیچیده ای را از طریق چندین لایه پنهان انجام می دهند و در نهایت در لایه خروجی نتایج را به دست می دهند. هرچه لایه ها بیشتر باشند، یعنی ‘یادگیری عمیق’، اطلاعات پیچیده تر پردازش می شوند.

اگرچه این مفهوم مدت هاست وجود داشته است، اما تحقق واقعی آن به رشد نمایی قدرت محاسباتی رایانه و بهینه سازی الگوریتم بستگی دارد. این به سنگ بنای هوش مصنوعی مدرن تبدیل شده است. تصور کنید که طبقه بندی خودکار آلبوم ها در تلفن همراه شما یا توانایی دستیار صوتی در درک دستورالعمل های شما، همه به لطف چهره درخشان شبکه های عصبی در پشت آنهاست.

پایگاه داده های برداری - کتابخانه سایبری

با این حال، داشتن تنها یک ‘ساختار مغزی’ به هیچ وجه کافی نیست. ما همچنین به یک ‘بانک حافظه’ کارآمد برای ذخیره و بازیابی حجم عظیمی از دانش نیاز داریم. پایگاه داده های سنتی به جستجوهای دقیق کلمات کلیدی متکی هستند و درک اطلاعاتی مانند ‘معنی مشابه’ یا ‘مرتبط از نظر مفهومی’ را دشوار می کنند. بنابراین، دومین گوی اژدها - پایگاه داده برداری - پدیدار شد. این پایگاه داده مانند یک ‘کتابخانه سایبری’ است. دانش را به روشی جدید با تبدیل اطلاعاتی مانند متن، تصاویر و صداها به بردارهای دیجیتال مدیریت می کند، به طوری که اطلاعات با معانی مشابه در فضای ریاضی به یکدیگر نزدیک هستند، به طوری که جستجوی محتوا بر اساس ‘معنی’ می تواند محقق شود. اگر می خواهید کتابی در مورد ‘سفر فضایی’ پیدا کنید، می تواند به سرعت تمام کتاب های مربوطه را به شما توصیه کند. بسیاری از برنامه های کاربردی هوش مصنوعی (مانند خدمات مشتری هوشمند و سیستم های پرسش و پاسخ اسناد) به طور فزاینده ای به این پایگاه داده برداری وابسته هستند که دقت و کارایی بازیابی اطلاعات را بهبود می بخشد.

ترانسفورماتور - توجه ماشین

برای اینکه ماشین ها بتوانند به درستی تفاوت های ظریف زبان انسان، مانند زمینه، زیرمتن و جناس را درک کنند، ماشین ها باید دارای توانایی های ‘درک مطلب’ فوق العاده ای باشند. سومین گوی اژدها - معماری ترانسفورماتور، به ویژه ‘مکانیسم توجه’ اصلی آن، این توانایی تقریباً ‘ذهن خوانی’ را به ماشین ها می دهد. هنگام پردازش یک کلمه، ترانسفورماتور می تواند به طور همزمان به تمام کلمات دیگر در جمله توجه کند و قضاوت کند که کدام کلمات برای درک معنای کلمه فعلی مهمتر هستند. این نه تنها نحوه خواندن ماشین ها را تغییر می دهد، بلکه پردازش زبان طبیعی را به سطح جدیدی ارتقا می دهد. از زمان انتشار مقاله ‘Attention Is All You Need’ در سال 2017، ترانسفورماتور به قهرمان مطلق در این زمینه تبدیل شده است و مدل های قدرتمند پیش آموزشی مانند GPT و BERT را ایجاد کرده است.

زنجیره فکر - روشی برای تفکر

توانایی ‘صحبت کردن’ به هیچ وجه کافی نیست. AGI همچنین به مهارت های استدلال منطقی دقیق نیاز دارد. چهارمین گوی اژدها، فناوری زنجیره فکر (CoT)، به هوش مصنوعی می آموزد که به جای حدس زدن پاسخ ها، مشکلات را به طور عمیق تجزیه و تحلیل کند. مانند راه حل یک مسئله کاربردی، CoT مدل را راهنمایی می کند تا گام به گام تجزیه و تحلیل کند، یک ‘مسیر فکری’ را تشکیل دهد و سپس یک پاسخ نهایی واضح ارائه دهد. تحقیقات گوگل و سایر موسسات نشان می دهد که مدل های بزرگ با استفاده از اعلان های CoT در وظایف استدلال چند مرحله ای عملکرد بسیار بهتری دارند و پشتیبانی قوی از قابلیت های منطقی هوش مصنوعی ارائه می دهند.

مخلوطی از متخصصان - مجموعه ای از متخصصان

همانطور که تعداد پارامترهای مدل سر به فلک می کشد، هزینه های آموزش و بهره برداری نیز بار عظیمی است. در این زمان، پنجمین گوی اژدها - معماری مخلوطی از متخصصان (MoE) - پدیدار شد. این معماری یک استراتژی ‘تقسیم و تسخیر’ را اتخاذ می کند و چندین ‘شبکه متخصص’ کوچک را آموزش می دهد که در رسیدگی به وظایف خاص خاص مهارت دارند. هنگامی که یک کار جدید وارد می شود، ‘شبکه دروازه’ هوشمند فقط متخصصان لازم را برای حفظ عملکرد کارآمد فعال می کند. به این ترتیب، مدل های هوش مصنوعی می توانند به مقیاس بزرگ و عملکرد قدرتمند با هزینه قابل قبولی دست یابند.

MCP - جعبه ابزار جهانی

برای تبدیل هوش مصنوعی به یک ‘بازیگر’ واقعی، باید بتواند ابزارها را فراخوانی کند و به دنیای خارج متصل شود. ششمین گوی اژدها - پروتکل زمینه مدل (MCP) - مفهوم افزودن یک ‘جعبه ابزار’ به هوش مصنوعی را پیشنهاد می کند. در اصل، این به هوش مصنوعی اجازه می دهد تا ابزارهای خارجی را از طریق رابط های استاندارد برای دستیابی به عملکردهای غنی تر فراخوانی کند. این مانند تجهیز افراد باهوش به تمام ابزارهایی است که نیاز دارند، و آنها را قادر می سازد تا اطلاعات را پیدا کنند و وظایف را در هر زمان انجام دهند. عوامل هوشمند امروزی (AIAgent) این را تجسم می کنند، زیرا هوش مصنوعی می تواند در انجام وظایفی مانند رزرو رستوران، برنامه ریزی سفر و تجزیه و تحلیل داده ها کمک کند، که بدون شک یک گام مهم در پیشرفت هوش مصنوعی است.

VSI - مغز شهودی فیزیکی

برای ادغام در جامعه انسانی، هوش مصنوعی نیز باید توانایی درک دنیای واقعی را داشته باشد. هفتمین گوی اژدها - فناوری های مرتبط با هوش فضایی بصری (VSI) - هدف آن این است که هوش مصنوعی یک ‘مغز شهودی’ داشته باشد که قوانین فیزیکی را درک کند. به عبارت ساده، VSI به هوش مصنوعی اجازه می دهد تا اطلاعات بصری به دست آمده از طریق دوربین ها یا حسگرها را درک کند و شناخت خود را از روابط بین اشیاء بهبود بخشد. این پایه و اساس برای تحقق فناوری هایی مانند رانندگی خودکار، روبات های هوشمند و واقعیت مجازی است. بدون شک این یک پل مهم است که هوش دیجیتال و واقعیت فیزیکی را به هم متصل می کند.

آیین احضار

وقتی این هفت ‘گوی اژدهای فنی’ در کنار هم قرار می گیرند، طرح AGI شروع به روشن شدن می کند. تصور کنید که ساختار بیومیمتیک شبکه های عصبی، دانش عظیمی که از پایگاه داده های برداری به دست می آید، درک ترانسفورماتور از اطلاعات، تفکر عمیق با کمک زنجیره فکر، عملکرد کارآمد از طریق معماری متخصص ترکیبی، و سپس ترکیب با MCP برای تعامل با ابزارهای خارجی و در نهایت استفاده از هوش فضایی بصری برای درک دنیای مادی. ادغام همه این فناوری ها به ما کمک می کند تا به سمت دوران جدیدی از اژدهای AGI حرکت کنیم.

قدرت شبکه های عصبی

تلاش برای تکرار قابلیت های مغز انسان منجر به توسعه شبکه های عصبی پیچیده تر شده است. این شبکه ها، متشکل از گره های متصل به هم یا ‘نورون ها’، اطلاعات را به صورت لایه ای پردازش می کنند و از نحوه انتقال سیگنال ها توسط نورون های بیولوژیکی تقلید می کنند. عمق این شبکه ها، با اشاره به تعداد لایه ها، یک عامل حیاتی در توانایی آنها در یادگیری الگوها و روابط پیچیده از داده ها است.

یادگیری عمیق، زیرمجموعه ای از یادگیری ماشین که از شبکه های عصبی عمیق استفاده می کند، در زمینه های مختلف از جمله تشخیص تصویر، پردازش زبان طبیعی و تشخیص گفتار به موفقیت های قابل توجهی دست یافته است. برای مثال، سیستم های تشخیص تصویر که توسط یادگیری عمیق پشتیبانی می شوند، می توانند به طور دقیق اشیاء و صحنه ها را در عکس ها شناسایی کنند، در حالی که مدل های پردازش زبان طبیعی می توانند متن های شبیه به انسان را درک و تولید کنند.

موفقیت شبکه های عصبی به چندین عامل کلیدی از جمله در دسترس بودن مجموعه داده های بزرگ، پیشرفت در قدرت محاسباتی و الگوریتم های بهینه سازی نوآورانه بستگی دارد. مقادیر زیادی از داده ها شبکه ها را قادر می سازد تا الگوهای پیچیده را یاد بگیرند، در حالی که زیرساخت محاسباتی قدرتمند به آنها اجازه می دهد تا داده ها را به طور موثر پردازش کنند. الگوریتم های بهینه سازی، مانند گرادیان کاهشی تصادفی، پارامترهای شبکه را برای به حداقل رساندن خطاها و بهبود عملکرد تنظیم می کنند.

نقش پایگاه داده های برداری

همانطور که سیستم های هوش مصنوعی پیچیده تر می شوند، نیاز به مکانیسم های کارآمد ذخیره سازی و بازیابی دانش از اهمیت بالایی برخوردار می شود. پایگاه داده های برداری این نیاز را با ارائه یک رویکرد جدید برای سازماندهی و دسترسی به اطلاعات برآورده می کنند. برخلاف پایگاه داده های سنتی که به جستجوهای مبتنی بر کلمات کلیدی متکی هستند، پایگاه داده های برداری اطلاعات را به صورت بردارهای عددی نشان می دهند و معنای معنایی و روابط بین مفاهیم مختلف را ثبت می کنند.

این نمایش برداری امکان جستجوهای مبتنی بر شباهت را فراهم می کند، جایی که سیستم می تواند اطلاعاتی را بازیابی کند که از نظر مفهومی با یک پرس و جو مرتبط هستند، حتی اگر کلمات کلیدی دقیق وجود نداشته باشند. به عنوان مثال، جستجو برای ‘مقاصد سفر’ ممکن است نتایجی را برگرداند که شامل ‘نقاط تعطیلات’، ‘جاذبه های گردشگری’ و ‘مقاصد تعطیلات’ است، حتی اگر این اصطلاحات خاص به صراحت در پرس و جو استفاده نشده باشند.

پایگاه داده های برداری به ویژه در برنامه هایی مانند سیستم های توصیه، بازیابی محتوا و پرسش و پاسخ مفید هستند. در سیستم های توصیه، آنها می توانند مواردی را شناسایی کنند که شبیه به ترجیحات گذشته کاربر هستند و توصیه های شخصی ارائه می دهند. در بازیابی محتوا، آنها می توانند اسناد و مقالات مرتبط را بر اساس محتوای معنایی آنها سطح بندی کنند. در پرسش و پاسخ، آنها می توانند معنای یک سوال را درک کرده و مرتبط ترین پاسخ ها را از یک پایگاه دانش بازیابی کنند.

ترانسفورماتورها و مکانیسم توجه

توانایی درک و تولید زبان انسان از ویژگی های بارز هوش است. ترانسفورماتورها، یک معماری شبکه عصبی انقلابی، به طور قابل توجهی زمینه پردازش زبان طبیعی را پیش برده اند. در قلب ترانسفورماتور، مکانیسم توجه نهفته است که به مدل اجازه می دهد هنگام پردازش یک توالی از کلمات، روی مرتبط ترین قسمت های ورودی تمرکز کند.

مکانیسم توجه مدل را قادر می سازد تا وابستگی های بلندمدت بین کلمات را ثبت کند، که برای درک زمینه و معنای یک جمله بسیار مهم است. به عنوان مثال، هنگام پردازش جمله ‘گربه روی حصیر نشست’، مکانیسم توجه می تواند به مدل کمک کند تا درک کند که ‘گربه’ و ‘حصیر’ مرتبط هستند، حتی اگر با کلمات دیگر از هم جدا شده باشند.

ترانسفورماتورها در وظایف مختلف پردازش زبان طبیعی، از جمله ترجمه ماشینی، خلاصه سازی متن و پرسش و پاسخ، به نتایج بسیار خوبی دست یافته اند. مدل هایی مانند GPT (ترانسفورماتور از پیش آموزش داده شده مولد) و BERT (بازنمایی رمزگذار دو طرفه از ترانسفورماتورها) توانایی های قابل توجهی را برای تولید متن منسجم و مرتبط با زمینه نشان داده اند.

استدلال زنجیره ای فکری

در حالی که ترانسفورماتورها در درک و تولید زبان عالی هستند، اغلب توانایی انجام وظایف استدلال پیچیده را ندارند. استدلال زنجیره ای فکری (CoT) تکنیکی است که با تشویق مدل ها به تجزیه مشکلات به مراحل کوچکتر و قابل مدیریت تر، قابلیت های استدلال مدل های زبان بزرگ را افزایش می دهد.

استدلال CoT شامل ترغیب مدل به نمایش صریح فرآیند استدلال خود به جای ارائه پاسخ نهایی است. برای مثال، هنگام پرسیدن یک سوال ریاضی، ممکن است از مدل خواسته شود که ابتدا فرمول های مربوطه را بیان کند، سپس مراحل مربوط به اعمال آن فرمول ها را نشان دهد و در نهایت پاسخ را ارائه دهد.

مدل با نمایش صریح فرآیند استدلال خود، می تواند بهتر اشتباهات را شناسایی و تصحیح کند، که منجر به نتایج دقیق تر و قابل اعتماد تر می شود. نشان داده شده است که استدلال CoT عملکرد مدل های زبان بزرگ را در انواع وظایف استدلال، از جمله استدلال حسابی، استدلال منطقی و استدلال حس مشترک بهبود می بخشد.

مخلوطی از متخصصان

همانطور که مدل ها بزرگتر و پیچیده تر می شوند، آموزش و استقرار آنها به طور فزاینده ای چالش برانگیز می شود. مخلوطی از متخصصان (MoE) معماری است که با تقسیم یک مدل بزرگ به چندین مدل ‘متخصص’ کوچکتر، که هر کدام در یک کار یا دامنه خاص تخصص دارند، این چالش ها را برطرف می کند.

هنگامی که یک ورودی جدید ارائه می شود، یک ‘شبکه دروازه’ مرتبط ترین متخصصان را برای پردازش ورودی انتخاب می کند. این به مدل اجازه می دهد تا منابع محاسباتی خود را بر روی مرتبط ترین قسمت های ورودی متمرکز کند که منجر به بهبود کارایی و عملکرد می شود.

نشان داده شده است که معماری های MoE به مدل های بسیار بزرگ با میلیاردها یا حتی تریلیون ها پارامتر مقیاس می شوند. این مدل های عظیم در وظایف مختلف به نتایج بسیار خوبی دست یافته اند که نشان دهنده قدرت محاسبات توزیع شده و تخصص است.

پروتکل زمینه مدل

برای ادغام واقعی هوش مصنوعی در دنیای واقعی، باید بتواند با ابزارها و خدمات خارجی تعامل داشته باشد. پروتکل زمینه مدل (MCP) چارچوبی است که مدل های هوش مصنوعی را قادر می سازد تا به ابزارهای خارجی به شیوه ای استاندارد و کنترل شده دسترسی داشته و از آنها استفاده کنند.

MCP مجموعه ای از پروتکل ها و رابط ها را تعریف می کند که به مدل های هوش مصنوعی اجازه می دهد تا ابزارهای خارجی را کشف و با آنها تعامل داشته باشند. این مدل ها را قادر می سازد تا طیف گسترده ای از وظایف مانند دسترسی به اطلاعات از وب، کنترل دستگاه های فیزیکی و تعامل با سایر برنامه های نرم افزاری را انجام دهند.

MCP با فراهم کردن دسترسی مدل های هوش مصنوعی به ابزارهای خارجی، آنها را قادر می سازد تا مشکلات پیچیده ای را حل کنند که نیاز به تعامل با دنیای واقعی دارند. این امکانات جدیدی را برای هوش مصنوعی در زمینه هایی مانند روباتیک، اتوماسیون و تعامل انسان و رایانه باز می کند.

هوش فضایی بصری

درک دنیای فیزیکی جنبه ای حیاتی از هوش است. هوش فضایی بصری (VSI) زمینه ای است که بر توانمندسازی مدل های هوش مصنوعی برای درک، درک و استدلال در مورد جنبه های بصری و فضایی جهان متمرکز است.

VSI شامل تکنیک هایی مانند تشخیص شی، درک صحنه و استدلال فضایی است. تشخیص شی به مدل های هوش مصنوعی اجازه می دهد تا اشیاء را در تصاویر و فیلم ها شناسایی و طبقه بندی کنند. درک صحنه آنها را قادر می سازد تا روابط بین اشیاء و زمینه کلی یک صحنه را تفسیر کنند. استدلال فضایی به آنها اجازه می دهد تا در مورد خواص فضایی اشیاء و روابط آنها، مانند اندازه، شکل و موقعیت آنها استدلال کنند.

VSI برای برنامه هایی مانند رانندگی خودکار، روباتیک و واقعیت افزوده ضروری است. در رانندگی خودکار، وسایل نقلیه را قادر می سازد تا محیط اطراف خود را درک و هدایت کنند. در روباتیک، به روبات ها اجازه می دهد تا اشیاء را دستکاری کرده و با محیط خود تعامل داشته باشند. در واقعیت افزوده، اشیاء مجازی را قادر می سازد تا به طور یکپارچه در دنیای واقعی ادغام شوند.

همگرایی این هفت فناوری - شبکه های عصبی، پایگاه داده های برداری، ترانسفورماتورها، استدلال زنجیره ای فکری، مخلوطی از متخصصان، پروتکل زمینه مدل و هوش فضایی بصری - نشان دهنده یک گام مهم در جهت دستیابی به هوش مصنوعی عمومی است. در حالی که چالش ها همچنان باقی است، پیشرفت های حاصل شده در سال های اخیر غیرقابل انکار است و ما را به آینده ای نزدیک تر می کند که در آن هوش مصنوعی می تواند واقعاً جهان را به شیوه ای شبیه به انسان درک، استدلال و با آن تعامل داشته باشد.