مایکروسافت اخیراً مدل زبانی کوچک (SLM) خود، Phi Silica، را با قابلیت ‘دیدن’ تقویت کرده و در نتیجه، عملکرد چندوجهی را ممکن ساخته است. این پیشرفت، Phi Silica را به عنوان هسته هوشمند برای هدایت ویژگیهای هوش مصنوعی مانند Recall قرار میدهد و قابلیتهای آن را به طور چشمگیری افزایش میدهد.
تحول در قابلیتهای هوش مصنوعی با چندوجهی بودن
با ادغام درک بصری، مایکروسافت Phi Silica را به یک سیستم چندوجهی تبدیل کرده است. این پیشرفت، SLM را قادر میسازد تا تصاویر را با پیچیدگی بیشتری درک کند و راه را برای ویژگیهای نوآورانه بهرهوری و دسترسی هموار سازد. این نشاندهنده یک گام مهم رو به جلو در نحوه تعامل هوش مصنوعی با اشکال مختلف دادهها و تفسیر آنها است.
درک Phi Silica: موتور محرکه هوش مصنوعی محلی
Phi Silica یک مدل زبانی کوچک (SLM) است که به دقت توسط مایکروسافت ساخته شده است. به عنوان یک نسخه ساده از مدلهای بزرگتر هوش مصنوعی، به طور خاص برای ادغام و عملکرد یکپارچه در Copilot+ PCها طراحی شده است. عملکرد محلی آن به معنای زمان پاسخگویی سریعتر و کاهش وابستگی به منابع ابری است.
Phi Silica به عنوان یک موتور هوش مصنوعی محلی، توابع متعددی را در ویندوز، از جمله Windows Copilot Runtime، پشتیبانی میکند. این مدل در انجام خلاصه سازی متنی به صورت محلی عالی است، در نتیجه مصرف انرژی را به حداقل میرساند زیرا وظایف را مستقیماً روی دستگاه به جای تکیه بر پردازش ابری انجام میدهد. این بازدهی برای دستگاههای تلفن همراه و سیستمهایی که در آن صرفهجویی در مصرف انرژی از اهمیت بالایی برخوردار است، بسیار مهم است.
Phi Silica همچنین نقش مهمی در عملکرد Windows Recall ایفا میکند، از محتوای نمایش داده شده اسکرین شات میگیرد و به عنوان یک کمک حافظه عمل میکند. این به کاربران امکان میدهد اطلاعات را بر اساس محتوای بصری گذشته از طریق پرس و جوهای زبان طبیعی بازیابی کنند. ادغام چنین ویژگی مستقیماً در سیستم عامل، نشاندهنده تعهد مایکروسافت به بهبود تجربه کاربری از طریق هوش مصنوعی است.
یک دستاورد کارآمد از طریق استفاده مجدد
دستاورد مایکروسافت به ویژه قابل توجه است زیرا به جای ایجاد اجزای کاملاً جدید، به طور کارآمد از اجزای موجود استفاده میکند. معرفی یک مدل ‘پروژکتور’ کوچک، قابلیتهای دید را بدون سربار منابع قابل توجه تسهیل میکند. این رویکرد بر تأکید استراتژیک بر بهینهسازی و تدبیر در توسعه هوش مصنوعی تأکید دارد.
این استفاده کارآمد از منابع به کاهش مصرف انرژی منجر میشود، عاملی که کاربران، به ویژه کسانی که از دستگاههای تلفن همراه استفاده میکنند، از آن بسیار قدردانی میکنند. همانطور که قبلاً ذکر شد، قابلیت چندوجهی Phi Silica آماده است تا تجربیات مختلف هوش مصنوعی، مانند توصیف تصویر را هدایت کند، در نتیجه راههای جدیدی را برای تعامل کاربر و دسترسی باز میکند.
گسترش دسترسی و عملکرد
مایکروسافت در حال حاضر به زبان انگلیسی در دسترس است و قصد دارد این پیشرفتها را به زبانهای دیگر نیز گسترش دهد و موارد استفاده و دسترسی جهانی سیستم را افزایش دهد. این گسترش یک گام مهم در جهت اطمینان از این است که مزایای هوش مصنوعی برای مخاطبان گستردهتری در دسترس باشد.
در حال حاضر، عملکرد چندوجهی Phi Silica منحصر به Copilot+ PCهای مجهز به تراشههای Snapdragon است. با این حال، مایکروسافت قصد دارد در آینده دسترسی آن را به دستگاههای مجهز به پردازندههای AMD و Intel گسترش دهد و سازگاری و پذیرش گستردهتری را تضمین کند.
دستاورد مایکروسافت به دلیل رویکرد نوآورانه خود شایسته تقدیر است. در ابتدا، Phi Silica فقط قادر به درک کلمات، حروف و متن بود. مایکروسافت به جای توسعه اجزای جدید برای عمل به عنوان یک ‘مغز’ جدید، یک راه حل خلاقانه تر و کارآمدتر را انتخاب کرد. این تصمیم بر تمرکز بر نوآوری مدبرانه و توسعه استراتژیک تأکید دارد.
روش مبتکرانه پشت درک بصری
برای مختصرتر کردن آن، مایکروسافت یک متخصص سیستم در تجزیه و تحلیل تصویر را در معرض عکسها و تصاویر متعددی قرار داد. در نتیجه، این سیستم در تشخیص مهمترین عناصر درون عکسها مهارت یافت. این فرآیند آموزش به سیستم اجازه داد تا درک پیچیدهای از محتوای بصری ایجاد کند.
متعاقباً، این شرکت یک مترجم ایجاد کرد که قادر به تفسیر اطلاعات استخراج شده توسط سیستم از عکسها و تبدیل آن به قالبی بود که Phi Silica بتواند درک کند. این مترجم به عنوان یک پل عمل میکند و SLM را قادر میسازد تا دادههای بصری را پردازش و ادغام کند.
سپس Phi Silica آموزش داده شد تا به این زبان جدید عکسها و تصاویر مسلط شود، در نتیجه این امکان را فراهم کرد تا این زبان را به پایگاه داده و دانش خود از کلمات مرتبط کند. این ادغام دادههای بصری و متنی امکان درک جامعتری از اطلاعات را فراهم میکند.
Phi Silica: یک مرور کلی مفصل
همانطور که قبلاً ذکر شد، Phi Silica یک مدل زبانی کوچک (SLM) است، نوعی هوش مصنوعی که برای درک و تکرار زبان طبیعی طراحی شده است، درست مانند همتای خود، مدل زبانی بزرگ (LLM). با این حال، تمایز اصلی آن در اندازه کوچکتر آن در رابطه با تعداد پارامترها نهفته است. این اندازه کاهش یافته امکان عملکرد کارآمد در دستگاههای محلی را فراهم میکند و نیاز به پردازش مبتنی بر ابر را کاهش میدهد.
SLM مایکروسافت، Phi Silica، به عنوان هسته هوشمند پشت ویژگیهایی مانند Recall و سایر ویژگیهای هوشمند عمل میکند. پیشرفت اخیر آن، آن را قادر میسازد تا چندوجهی شود و علاوه بر متن، تصاویر را نیز درک کند، بنابراین سودمندی و سناریوهای کاربردی آن را گسترش میدهد. این نشاندهنده یک گام مهم به سوی ایجاد سیستمهای هوش مصنوعی همه کارهتر و کاربر پسندتر است.
مایکروسافت نمونههایی از امکانات باز شده توسط قابلیتهای چندوجهی Phi Silica به اشتراک گذاشته است و در درجه اول بر کمکهای دسترسی برای کاربران متمرکز است. این نمونهها پتانسیل SLM را برای بهبود زندگی افراد دارای معلولیت و کسانی که به کمک در وظایف شناختی نیاز دارند، برجسته میکند.
متحول کردن دسترسی برای کاربران
یکی از کاربردهای مهم، کمک به افراد دارای اختلالات بینایی است. به عنوان مثال، اگر یک کاربر دارای اختلال بینایی با یک عکس در یک وب سایت یا در یک سند مواجه شود، SLM مایکروسافت میتواند به طور خودکار یک توصیف متنی و مفصل از تصویر ایجاد کند. سپس این توصیف میتواند توسط یک ابزار PC خوانده شود و کاربر را قادر سازد تا محتوای تصویر را درک کند. این عملکرد گامی بزرگ رو به جلو در دسترس قرار دادن محتوای بصری برای همه است.
علاوه بر این، این پیشرفت برای افراد دارای ناتوانیهای یادگیری نیز مفید است. SLM میتواند محتوای نمایش داده شده روی صفحه را تجزیه و تحلیل کند و توضیحات یا کمکهای متنی و مفصلی را در اختیار کاربر قرار دهد. این میتواند به طور قابل توجهی نتایج یادگیری را بهبود بخشد و از کسانی که با روشهای یادگیری سنتی مشکل دارند، حمایت کند.
Phi Silica همچنین میتواند در شناسایی اشیاء، برچسبها یا خواندن متن از عناصر نمایش داده شده روی وبکم دستگاه کمک کند. کاربردهای این پیشرفت در مدل زبانی کوچک مایکروسافت متعدد است و پتانسیل عظیمی برای کمک به کاربران به روشهای مختلف دارد. این نشاندهنده تعهد مایکروسافت به ایجاد هوش مصنوعی است که هم قدرتمند و هم قابل دسترس باشد.
کاربردها در حوزههای مختلف
قابلیتهای چندوجهی Phi Silica فراتر از دسترسی، به حوزههای مختلف دیگر نیز گسترش مییابد. به عنوان مثال، میتوان از آن در آموزش برای ارائه توضیحات مفصل در مورد نمودارها یا تصاویر پیچیده استفاده کرد و در نتیجه تجربه یادگیری را افزایش داد. در مراقبتهای بهداشتی، میتواند در تجزیه و تحلیل تصاویر پزشکی، مانند اشعه ایکس، کمک کند تا به پزشکان در تشخیص دقیقتر کمک کند.
در حوزه تجارت، میتوان از Phi Silica برای خودکارسازی وظایفی مانند استخراج اطلاعات از فاکتورها یا رسیدها استفاده کرد، بنابراین در زمان صرفهجویی میکند و خطاها را کاهش میدهد. همچنین میتوان از آن برای بهبود خدمات مشتری با ارائه پاسخهای خودکار به سوالات مشتری بر اساس نشانههای بصری استفاده کرد.
ادغام عملکرد چندوجهی در Phi Silica نشاندهنده یک نقطه عطف مهم در تکامل هوش مصنوعی است. با قادر ساختن SLM برای درک متن و تصاویر، مایکروسافت انبوهی از امکانات و کاربردهای جدید را باز کرده است. همانطور که مایکروسافت به پالایش و گسترش قابلیتهای Phi Silica ادامه میدهد، آماده است تا نقش فزاینده مهمی در شکل دادن به آینده هوش مصنوعی ایفا کند.
متحول کردن تعامل کاربر با هوش مصنوعی
تغییر به سمت سیستمهای هوش مصنوعی چندوجهی مانند Phi Silica فقط در مورد افزودن ویژگیهای جدید نیست. بلکه در مورد تغییر اساسی نحوه تعامل کاربران با فناوری است. با درک و پاسخ دادن به ورودیهای بصری و متنی، هوش مصنوعی میتواند شهودیتر و پاسخگوتر به نیازهای متنوع کاربران شود.
این تحول به ویژه در دنیای دیجیتالی فزاینده مهم است، جایی که کاربران دائماً با اطلاعات از منابع مختلف بمباران میشوند. با ارائه سیستمهای هوش مصنوعی که میتوانند به کاربران در فیلتر کردن، درک و پردازش این اطلاعات کمک کنند، میتوانیم به آنها قدرت دهیم تا سازندهتر، آگاهتر و درگیرتر باشند.
آینده هوش مصنوعی چندوجهی
با نگاهی به آینده، آینده هوش مصنوعی چندوجهی روشن است. همانطور که مدلهای هوش مصنوعی پیچیدهتر میشوند و دادهها فراوانتر میشوند، میتوانیم انتظار داشته باشیم که کاربردهای نوآورانهتری از هوش مصنوعی چندوجهی در حوزههای مختلف ببینیم. این شامل زمینههایی مانند رباتیک، وسایل نقلیه خودران و واقعیت افزوده است.
در رباتیک، هوش مصنوعی چندوجهی میتواند رباتها را قادر سازد تا محیط خود را به روشی طبیعیتر و شهودیتر درک و با آن تعامل داشته باشند. به عنوان مثال، یک ربات مجهز به هوش مصنوعی چندوجهی میتواند از نشانههای بصری برای پیمایش در یک محیط پیچیده استفاده کند، در حالی که از دستورات متنی نیز برای پاسخ به دستورالعملهای انسانی استفاده میکند.
در وسایل نقلیه خودران، هوش مصنوعی چندوجهی میتواند وسایل نقلیه را قادر سازد تا محیط اطراف خود را به روشی مطمئنتر و ایمنتر درک و به آن واکنش نشان دهند. به عنوان مثال، یک خودروی خودران مجهز به هوش مصنوعی چندوجهی میتواند از دادههای بصری دوربینها و حسگرهای لیدار و همچنین دادههای متنی گزارشهای ترافیکی استفاده کند تا تصمیمات آگاهانهای در مورد ناوبری و ایمنی بگیرد.
در واقعیت افزوده، هوش مصنوعی چندوجهی میتواند کاربران را قادر سازد تا با محتوای دیجیتال به روشی فراگیرتر و جذابتر تعامل داشته باشند. به عنوان مثال، یک برنامه AR مجهز به هوش مصنوعی چندوجهی میتواند از نشانههای بصری برای تشخیص اشیاء در دنیای واقعی استفاده کند، در حالی که از دادههای متنی پایگاه دادههای آنلاین نیز برای ارائه اطلاعات مرتبط در مورد آن اشیاء به کاربران استفاده میکند.
پرداختن به چالشها و ملاحظات اخلاقی
همانند هر فناوری نوظهوری، توسعه و استقرار هوش مصنوعی چندوجهی نیز چالشها و ملاحظات اخلاقی مهمی را مطرح میکند. یکی از چالشهای کلیدی، اطمینان از منصفانه و بیطرفانه بودن سیستمهای هوش مصنوعی چندوجهی است. مدلهای هوش مصنوعی گاهی اوقات میتوانند تعصبات موجود در دادههایی که روی آنها آموزش داده شدهاند را تداوم بخشند یا تقویت کنند و منجر به نتایج ناعادلانه یا تبعیضآمیز شوند.
برای مقابله با این چالش، بسیار مهم است که دادههای مورد استفاده برای آموزش سیستمهای هوش مصنوعی چندوجهی را با دقت انتخاب و ممیزی کنیم. همچنین مهم است که تکنیکهایی برای تشخیص و کاهش تعصب در مدلهای هوش مصنوعی توسعه دهیم. چالش مهم دیگر، اطمینان از حریم خصوصی و امنیت دادههای مورد استفاده توسط سیستمهای هوش مصنوعی چندوجهی است. مدلهای هوش مصنوعی گاهی اوقات میتوانند ناخواسته اطلاعات حساسی در مورد افراد، مانند هویت، ترجیحات یا فعالیتهای آنها را فاش کنند.
برای مقابله با این چالش، بسیار مهم است که سیاستهای حاکمیت داده و اقدامات امنیتی قوی را اجرا کنیم. همچنین مهم است که تکنیکهایی برای ناشناسسازی و محافظت از دادههای حساس توسعه دهیم. در نهایت، مهم است که اطمینان حاصل کنیم که سیستمهای هوش مصنوعی چندوجهی شفاف و پاسخگو هستند. کاربران باید بتوانند درک کنند که چگونه سیستمهای هوش مصنوعی تصمیم میگیرند و بتوانند آنها را در قبال اقدامات خود پاسخگو بدانند.
برای مقابله با این چالش، بسیار مهم است که تکنیکهای هوش مصنوعی قابل توضیح (XAI) را توسعه دهیم که به کاربران امکان میدهد استدلال پشت تصمیمات هوش مصنوعی را درک کنند. همچنین مهم است که خطوط پاسخگویی روشنی برای سیستمهای هوش مصنوعی ایجاد کنیم.
در نتیجه، ارتقاء Phi Silica مایکروسافت با قابلیتهای چندوجهی نشاندهنده یک گام مهم رو به جلو در تکامل هوش مصنوعی است. با قادر ساختن SLM برای درک متن و تصاویر، مایکروسافت انبوهی از امکانات و کاربردهای جدید را باز کرده است. همانطور که مایکروسافت و سایر سازمانها به توسعه و پالایش سیستمهای هوش مصنوعی چندوجهی ادامه میدهند، بسیار مهم است که به چالشها و ملاحظات اخلاقی مرتبط با این فناوری بپردازیم. با انجام این کار، میتوانیم اطمینان حاصل کنیم که هوش مصنوعی چندوجهی به گونهای استفاده میشود که برای کل جامعه مفید باشد.