Обучението на GPT-4.5: 100 000 GPU и предизвикателства

Генезисът на GPT-4.5: Двугодишна одисея

Инициативата GPT-4.5, замислена две години преди старта си, представляваше най-щателно планираното начинание на OpenAI до момента. Тя изискваше съвместните усилия на стотици хора, като Алтман отбеляза, че проектът ефективно е ангажирал ‘почти всички’ в OpenAI. Това широкообхватно участие подчертава стратегическата важност на GPT-4.5 в рамките на по-широката мисия на организацията.

По време на фазата на разработка екипът на OpenAI се сблъска с това, което те нарекоха ‘катастрофални проблеми’. Разгръщането на клъстер от 100 000 GPU разкри латентни уязвимости в инфраструктурата, които се проявиха като редки, но сериозни повреди. За да се постигне баланс между експедитивност и оптимална производителност, системните инженери възприеха итеративен подход, по същество ‘изграждане и поправяне’ едновременно. Един особено неуловим бъг измъчваше клъстера с повтарящи се грешки, оставайки неоткрит, докато процесът на обучение не беше достигнал приблизително 40% завършеност.

Парадоксално, тези изпитания допринесоха за укрепването на техническата основа на OpenAI. Придобитата експертиза сега позволява на компактен екип от едва 5-10 души да репликира модел от мащаба на GPT-4. Скокът в производителността от GPT-4 към GPT-4.5, оценен на около десетократен, се характеризираше с ‘трудна за количествено определяне, но цялостно подобрена интелигентност’, изненадваща дори тези в OpenAI. Този качествен скок предполага напредък отвъд простото мащабиране, сочейки към фундаментални подобрения в способността на модела да разсъждава и разбира.

Гледайки напред, OpenAI признава, че постигането на следващата степен на величина в производителността ще зависи не само от изчислителната мощност, а по-скоро от ефективността на данните. Фокусът се измества към разработване на алгоритми, които могат да извлекат повече знания от съществуващите набори от данни, като по този начин се максимизира полезността на наличните изчислителни ресурси.

Освен това архитектурата се развива от едноклъстерна към многоклъстерна структура, предвиждайки бъдещи сценарии на обучение, включващи съвместно обучение в до 10 милиона GPU. Този преход налага значителни подобрения в отказоустойчивостта, за да се гарантира стабилността и надеждността на такива мащабни разпределени системи.

Разговорът също така се задълбочи във връзката между ‘дългата опашка’ на данните и законите за мащабиране, предимствата на тясното сътрудничество между машинното обучение и системните екипи (съвместно проектиране), същността на неконтролираното обучение и културата на щателно решаване на проблеми.

Ключовите играчи зад GPT-4.5

Освен Алтман, другите трима членове на екипа на OpenAI, които взеха участие в този разговор, бяха:

  • Алекс Пайно: Отговаря за алгоритмите за предварително обучение на машинно обучение на GPT-4.5.
  • Амин Тутунчиан: Главен системен архитект на OpenAI.
  • Даниел Селсам: Изследва ефективността на данните и алгоритмите.

Произход и еволюция на GPT-4.5

Сам Алтман: Какво наистина е необходимо, за да се изгради модел толкова голям, колкото GPT-4.5?

Алекс Пайно: Започнахме този проект преди около две години. По това време OpenAI се готвеше да пусне нов голям изчислителен клъстер и нашият екип видя тази възможност и направи серия от задачи, за да определи функциите, които моделът трябва да включва, и проведе голям брой тестове за операции за намаляване на риска.

Разработихме дълъг план за това, включващ целия технологичен стек от системата до машинното обучение. Намаляването на рисковете и подготовката за обучение е дълъг процес на изпълнение, а самото обучение също е много голям проект.

Амин Тутунчиан: Мисля, че този процес изисква тясно сътрудничество между екипа по машинно обучение и системния екип от самото начало, докато ясно знаем какъв модел искаме да обучим, и след това да започнем обучение.

Направихме прогнози в машинното обучение и системите, опитвайки се да сведем до минимум разликата между очакванията и реалността. Въпреки това, тъй като нашият работен ритъм е много бърз и трябва да използваме най-новите изчислителни ресурси, обучението на модела се превърна в нещо, което е трудно да се планира перфектно предварително.

Почти винаги започваме обучение с много нерешени проблеми и се опитваме да преодолеем предизвикателствата и да постигнем напредък по време на процеса. Основното решение е да увеличим повече изчислителни ресурси.

Последният етап е изпълнението, което изисква много хора да инвестират много енергия и мотивация за дълго време, за да завършат процеса на обучение.

Сам Алтман: Колко голяма според вас е разликата между нашите очаквания и реалността?

Амин Тутунчиан: По отношение на системата, в началото обикновено сме далеч от очакваното състояние. Винаги сме изправени пред избор: дали да отложим старта и да изчакаме проблемът да бъде решен, или да започнем рано и да решим проблема в процеса. Това винаги изисква компромиси, за да се избегнат неразумни забавяния в процеса.

Но почти винаги има неочаквани проблеми и това, което трябва да направим, е да обработим тези възли възможно най-много, да се справим с неизвестните фактори и да формулираме план за обучение на модела.

Алекс Пайно: В този проект нашата цел е да направим GPT-4.5, което означава, че възможностите му трябва да бъдат 10 пъти по-интелигентни от GPT-4. Това е първоначалната цел, която си поставихме преди около 2 години.

Много неща се случиха в този процес. Мислехме за това дали можем да се справим по-добре или по-зле от очакваното? Това е много сложен процес, но в крайна сметка, по отношение на ефективните изчисления, които вложихме, получихме модел, който според нас е 10 пъти по-интелигентен от GPT-4.

Амин Тутунчиан: По отношение на изпълнението, времето, прекарано за проекта GPT-4.5, е далеч от това, което първоначално очаквахме.

Революцията на слабия екип: Обучение на GPT-4 с минимални ресурси

Сам Алтман: Когато клъстерът се разшири от 10 000 карти до 100 000 карти, защо срещнахте толкова много проблеми?

Амин Тутунчиан: Мисля, че ако системните разработчици са достатъчно чувствителни, повечето проблеми могат да бъдат наблюдавани в малкия мащаб.

Има и някои проблеми, които не са уникални за етапа на обучение в голям мащаб, но първоначално възникваха често, но ще станат катастрофални проблеми след увеличаване на мащаба, особено когато екипът не е очаквал, че тези проблеми ще се влошат до такава степен предварително.

Сам Алтман: Какви неща причиниха катастрофални последици?

Амин Тутунчиан: Мисля, че проблемите с инфраструктурата са добре известни. Процентът на неуспехите, типът на неуспехите и общото количество неуспехи са много високи. Клъстерът от 100 000 карти е голям примерен басейн, така че открихме и проблеми, които доставчикът на изчислителна мощност не е наблюдавал.

Мрежата е една част от това, а отделните ускорители също могат да имат проблеми. Но това е и красотата на тази система - почти всички компоненти трябва да работят според очакванията, за да дадат очакваните резултати. Нашата работа е да сведем до минимум този проблем колкото е възможно повече.

Сам Алтман: Наистина е трудно да се работи на границата на мащаба на клъстера, но също така забелязах, че правенето на неща, които вече не са на предния фронт на технологиите, е станало много по-лесно. Обучението на GPT-4.5 изисква стотици хора и почти всички в OpenAI са включени.

Но днес, ако ви позволите да изберете най-малкия екип от OpenAI и да преобучите GPT-4 от нулата с всички знания, които знаем, и цялата системна работа, колко хора ще са необходими?

Алекс Пайно: Мисля, че може да са необходими около 5 до 10 души, за да се направи модел от ниво GPT-4 сега. Технологичният стек е значително подобрен в процеса на завършване на GPT-4.5.

Всъщност сме правили подобни неща в процеса на обучение на GPT-4.5 - обучихме GPT-4o, който е модел от ниво GPT-4, и го преобучихме, използвайки много от същото съдържание от изследователския проект GPT-4.5. По-малко хора бяха използвани за това обучение.

Ефективност на данните: Ключът към отключване на следващото поколение модели

Сам Алтман: От ваша гледна точка, Дан? Защо е трудно да се обучават големи модели?

Даниел Селсам: Мисля, че е трудно да се направи нещо ново. Мисля, че дори самото откритие, че някой друг е направил нещо, го прави много по-лесно, защото най-трудната част е да имаш вярата, че можеш да направиш нещо на първо място. Мисля, че самото знание, че нещо е осъществимо, е супер чийт код, което прави нещата много по-лесни.

Алекс Пайно: Разширяваме операцията за предварително обучение на GPT до 10 пъти по-голяма от преди и винаги ще намираме някои интересни нови неща, които не можете непременно да предвидите.

Сам Алтман: Какво е необходимо, за да се постигне следващият 10x или 100x растеж в мащаба на предварителното обучение?

Даниел Селсам: Ефективност на данните. Архитектурата Transformer (която е GPT) е много ефективна при използването на данни. Тя може да абсорбира и компресира информация добре и да постигне обобщение. Най-голямата й характеристика е, че може ефективно да абсорбира информация с изчислителни ресурси.

Въпреки това, дълбочината на прозрението, което получава от данните, е ограничена. Когато изчислителната мощност нараства бързо, докато данните нарастват относително бавно, данните се превръщат в пречка в този стандартен модел. Това изисква алгоритмични иновации, разработване на методи, които могат да използват повече изчислителна мощност, за да научат повече знания от същото количество данни.

Сам Алтман: Какво друго смятате, че е необходимо, за да поддържаме разширяването освен това?

Амин Тутунчиан: Моят отговор е за системата. Мисля, че огромното количество работа, необходимо за GPT-4.5, е по същество неизбежният резултат от спецификациите на модела. Не можем да обучим GPT-4.5 с точно същата техническа архитектура като GPT-4.

По отношение на управлението на състоянието, тъй като необходимите изчислителни ресурси са надхвърлили капацитета за пренос на един клъстер, трябва да преминем към многоклъстерна архитектура за обучение. За да постигнем тази цел, трябва да интегрираме множество различни работни процеси за кратко време.

Въпреки че това ни помогна да постигнем поетапен пробив, за да постигнем следващата степен на величина на подобряване на производителността, все още трябва да решим няколко известни, но временно отложени технически проблема - тези проблеми не могат да бъдат избегнати. Именно този вид технически компромис непрекъснато удължава цикъла на разработка на перфектна система. Ние винаги правим стратегически компромиси в процеса на преследване на оптималния план за изпълнение.

Трябва да е ясно, че самата система не е крайната цел. Нейната реална изходна стойност е основното съображение. За следващото 10x подобрение на производителността, смятам, че пробивът в отказоустойчивостта е от решаващо значение. Трябва да изградим отказоустойчив механизъм, който дълбоко си сътрудничи с натоварването, за да намали значително безпокойството при експлоатацията и поддръжката. Сложността на експлоатацията и поддръжката на настоящата супер-голяма система е по същество различна от тази на предишните системи.

Сам Алтман: Знаете ли какъв процент от неуспехите са причинени от определени компоненти по време на обучението на GPT-4.5?

Амин Тутунчиан: Нямам конкретни цифри, които да споделя, но като цяло, първоначалното разгръщане на ново поколение хардуер често е изправено пред много технически предизвикателства, които не са напълно разбрани. Избрахме да напреднем по проекта, преди проблемът да бъде напълно изяснен, което доведе до висок първоначален процент на неуспехи.

Но опитът показва, че след като коренната причина е идентифицирана и разрешена, процентът на неуспехите ще бъде значително намален. Това явление по същество отразява задълбочаването на нашето разбиране за инфраструктурата - някои хора го наричат почистване на инфраструктурата или разбиране на основните проблеми на инфраструктурата.

Ранните етапи на изпълнение почти винаги садоста болезнени. Докато напредваме по проекта, ние също така непрекъснато откриваме и решаваме нови режими на неуспехи, но в крайна сметка процентът на неуспехите постепенно ще намалее и нормалното време за работа ще се увеличи.

Това е по същество въпрос на компромиси с приоритетите: в ранните етапи на жизнения цикъл на инфраструктурата, рискът от нейната повреда често е труден за точно оценяване; и ако прекалено преследваме крайното идеално състояние (оригиналът е ‘City Estate’, идеалният дизайн на град-държава), това може да доведе до системата Първоначалната производителност на наличност е изключително слаба.

Отвъд изчисленията: Алгоритмични иновации и неизползваният потенциал на данните

Сам Алтман: Въпреки че моделът за извод е ключов компонент на нашия бъдещ технологичен стек, нека временно се фокусираме върху границите на развитие на традиционните модели за предварително обучение. Ако приемем, че имаме неограничена изчислителна мощност на GPU, неограничена мрежова честотна лента и неограничено захранване, но все още сме ограничени от съществуващите технически пречки - включително проблеми с надеждността на системата, липса на отказоустойчиви методи за обучение и ограничения на съществуващите набори от данни.

Според нашето правило за еволюция за постигане на 100-кратно увеличение на мащаба за всяка основна версия на GPT, въз основа на текущите технически граници, до какво ниво може да достигне развитието на моделите за предварително обучение? По-конкретно, за моделите от серията GPT, въз основа на нашата съществуваща система от знания, какъв вид модел може теоретично да бъде обучен? Можем ли да направим GPT-5.5?

Алекс Пайно: От гледна точка на машинното обучение и разработването на алгоритми, все още не сме достигнали ясна теоретична граница. Всъщност току-що започнахме да проучваме алгоритми с по-висока ефективност на данните и как да използваме по-пълно съществуващите ресурси от данни. Тази ситуация е много интересна - дори модели като GPT-4 са разработени до голяма степен при условия на ограничени изчислителни ресурси, което определи посоката на повечето предишни изследвания.

Но ситуацията е напълно различна сега. От GPT-4.5, в някои ключови измерения, данните, а не изчисленията, се превръщат в основното ограничение. Тази промяна прави свързаните изследвания по-малко вълнуващи.

Сам Алтман: Но това наистина е удивителен напредък и светът може да не осъзнава напълно, че изчислителните ресурси вече не са основната пречка пред най-добрия модел, който можем да изградим. Тази промяна е много смислена, в края на краищата, живеем в изчислително ограничена среда твърде дълго.

Разкриване на изненадите: Предвидимост срещу непредвидена интелигентност

Сам Алтман: Какъв е най-интересният опит в машинното обучение, който научихме по време на обучението на GPT-4.5? Просто кажете какво искате да споделите.

Амин Тутунчиан: Като цяло, най-провокиращите неща са тези, които се отклоняват от нашите прогнози - особено когато се опитваме да разберем защо действителната производителност се отклонява от очакваната крива.

Алекс Пайно: Едно от най-изненадващите открития за нас е, че различните компоненти на машинното обучение имат много различна производителност на мащабируемост. Някои части могат да бъдат разширени много добре, докато други не могат. Това е, което наистина осъзнахме по време на действителния процес на обучение. Този опит ни даде много вдъхновение.

Даниел Селсам: Мисля, че двете основни характеристики на парадигмата GPT са: първо, тестовата загуба (метрика, която измерва колко добре се представя моделът на невиждани тестови данни) може да бъде точно предвидена; второ, изпълнението на модела показва предвидимо подобрение с увеличаването на мащаба. Още по-удивително е, че намаляването на тестовата загуба ще се трансформира в цялостно подобрено ниво на интелигентност по различни трудни за количествено определяне, но удивителни и мистериозни начини.

Сам Алтман: Абсолютно ли сте оптимист за това? Напълно ли сте съгласни с тази гледна точка?

Даниел Селсам: Всъщност това, което искам да кажа, е, че открихме особено интересен феномен в теста GPT-4.5 - след повторно тестване, многобройните сложни възможности, показани от модела, напълно надхвърлиха очакванията на всички.

Сигурни сме, че той ще стане по-интелигентен по различни начини, които е трудно да се определят предварително, и тези фини подобрения могат да бъдат наблюдавани от удовлетвореността на потребителите след действителното разгръщане: по-силни резерви от здрав разум, по-точна способност за контекстуално разбиране и по-фино семантично схващане - това е магията, донесена от тези допълнителни тестови загуби. Според мен Законът за мащабиране е перфектно проверен в това измерение.

Силата на сътрудничеството: Машинно обучение и системни екипи, работещи в хармония

Сам Алтман: Кой беше най-положителният момент по време на целия процес на обучение? Какъв е любимият ви спомен? Очевидно има много болка, но се надявам, че тази болка е облекчена.

Алекс Пайно: Имам такъв момент. Направихме много работа по машинно обучение по време на обучението и мисля, че някои от промените, които направихме по време на процеса, имаха доста добър ефект, може би дори по-добър от очакваното, което беше много вълнуващ момент за нас.

Амин Тутунчиан: За мен, едновременно с обучението, ние също така изграждаме инфраструктура. Твърдо вярваме, че можем да преминем тази производителна скала и имаме план и всички го изпълняват, но отнема много време. Това е трудна работа и определено по-трудна, отколкото си мислех. Моята прогноза беше грешна и подцених времето, необходимо за решаване на тези проблеми.

Моментът, когато екипът най-накрая преодоля тези ключови проблеми и производителността беше значително подобрена, все още е свеж в паметта ми. Можете ясно да усетите промяната в енергията в целия екип - всички изведнъж са пълни с енергия и се втурват към крайната цел с нова мотивация.

Най-удивителното е, че очакваното време за завършване, показано на нашия тракер на състоянието, продължи да се съкращава от първоначалните две години и най-накрая се заключи на ясен времеви възел. Този видим напредък е неизмерим за подобряване на морала на екипа. Мисля, че това е красотата на това.

Бих искал да подчертая, че работата по машинно обучение никога не е спирала. Дори след като обучението е започнало, този процес на съвместно проектиране на машинното обучение все още е в ход. Екипът по машинно обучение не само активно следи проблемите, които са били маркирани като ‘последваща обработка’, но и продължи да предоставя подобрения, които наистина оптимизират времето за обучение.

Това перфектно въплъщава духа на нашия екип - тук няма работна граница ‘да метеш снега пред собствената си врата’, а наистина безпроблемно сътрудничество. Тази сплотеност е най-голямото ни предимство.

Щателно планиране и безмилостно преследване на аномалии при предварителното обучение на GPT-4.5

Даниел Селсам: Външният свят обсъжда много предизвикателствата и предвидимата точност на самото това обучение. Но всъщност всичко това е изградено върху изключително щателно планиране - можете ли да говорите повече за това в детайли?

Алекс Пайно: Това определено е най-щателният план, който сме правили досега. Както казах, започнахме да се подготвяме за този проект година преди официалния старт на обучението. През този период проведохме множество мащабни тестови стартирания за контрол на риска.

Обръщаме специално внимание на постепенно въвеждане на всички подобрения: започвайки от основна конфигурация с висока степен на доверие - която може да се разбира като зряла архитектура, подобна на GPT-4, ние сме овладели напълно тази конфигурация на ниво машинно обучение - и след това наслояваме нови функции като строителни блокове.

Ключът е да се провери стриктно мащабируемостта на всяко подобрение в различни мащаби: не само да се видят подобрения в производителността, но и да се гарантира, че тези подобрения могат да продължат да бъдат ефективни с увеличаването на размера на модела. Много подобрения се представят добре в тестове в малък мащаб, но ще се провалят в приложения в голям мащаб.

Следователно, поддържахме висока степен на бдителност през целия процес и продължаваме да итерираме и подобряваме нашата методология за закон за мащабиране. Чрез тази практика за контрол на риска сме натрупали много ценен опит, който ще продължи да ръководи разработването на бъдещи модели от серията GPT.

Амин Тутунчиан: Спомням си особено интересен момент, който много ми липсва. Знаете, че почти неизбежно се сблъскваме с различни грешки всеки път, когато започнем задача за обучение, което е нещо обичайно. Но ключът е да се гарантира, че напредъкът не е възпрепятстван и трябва винаги да потвърждаваме дали текущият напредък е наистина на правилния път и дали тези грешки ще имат фатален ефект върху здравето на обучението.

Въпреки че първоначално бяхме много сигурни, че има големи недостатъци, чрез цялата система за наблюдение, която изградихме, успяхме да разграничим точно коренната причина за проблема: дали е повреда на хардуера? Какъв тип повреда на хардуера? Дали е повреда на данните? Или е грешка в самия модел за машинно обучение? Или е състезателно състояние в кода?

По това време имахме множество области за дискусии на проблеми, отворени по едно и също време, с голямо разнообразие от симптоми. След серия от корекции на грешки, изпаднахме в задънена улица: множество нерешени проблеми бяха натрупани пред нас и всички се мъчеха с мозъците си - дали тези са причинени от различни грешки? Или е грешка, която създава проблеми?

По-късно проведохме гласуване и помолихме членовете на екипа да гласуват за най-вероятната коренна причина. В резултат на това, най-малко оптимистичната опция удари истината: оказа се, че има проблем с функцията torch.sum нагоре по веригата на PyTorch, проста операция за сумиране.

Тази грешка е много интересна. Знаете, че основно използваме ядрото Triton и само в някои незначителни маргинални сценарии ще се върнем към операциите torch. Грешката на функцията torch.sum, задействана от нашия специфичен код, понякога ще причини незаконен достъп до паметта поради характеристиките на разпределението на данните - тя направи грешка при изчисляване на изместването на паметта.

Най-драматичното нещо е, че когато инженер най-накрая откри проблема и подаде корекция, всички грешки с различни симптоми изчезнаха. Всички развълнувано промениха канала Slack от ‘теория за множество грешки’ на ‘теория за единична грешка’ и сцената беше много щастлива.

Колко време е дебнела тази грешка? Тя съществува от ранните етапи на обучението и не е открита, докато лентата за напредък не е преминала около 40%. Процесът на откриване също беше пълен с драма: По това време, сложно ядро непрекъснато извикваше последователност и второто извикване задейства незаконен достъп до паметта.

Въпреки че тази честота на сривове е изключително ниска (тя се случва само веднъж на всеки няколкостотин или дори хиляди стъпки на обучение), е лесно да бъде пренебрегната като случайна грешка, но принципът на нашия екип е: никога не пускайте никаква аномалия. Най-добрата част от тази история се крие в тази упоритост да не се отказваме лесно.

Търсенето на идеални системи: Далечен хоризонт

Сам Алтман: След като стартира предварителното обучение на GPT-4.5, какво друго трябва да направите?

Алекс Пайно: Всички ние трябва често да наблюдаваме кривата на загубите. В допълнение, трябва непрекъснато да оптимизираме системата и да подобряваме съвместния дизайн, който не беше завършен преди стартирането на обучението. Следим отблизо различни статистически показатели по време на процеса на обучение, за да се гарантира, че няма неочаквани анормални тенденции. В същото време, проучваме възможни планове за подобрение от гледна точка на машинното обучение. Въпреки че работата на ниво данни ще бъде временно намалена след стартирането на предварителното обучение, все още има голям брой задачи, които трябва да бъдат обработени.

Амин Тутунчиан: Мисля, че машинното обучение до голяма степен зависи от правилността на преценката. След като стартира предварителното обучение, изправени пред голям брой шумове, ние сме като гадатели, интерпретиращи чаени листа и трябва да преценим дали системата е здрава. Това е нашата отговорност.

Сам Алтман: На системно ниво, какво ни ограничава да провеждаме обучение на модели? Дали са чипове, процесори, памет, мрежа или захранване?

Амин Тутунчиан: Красотата на системата е, че когато се прави съвместен дизайн, натоварването може да се адаптира към инфраструктурата, която изграждате. Тук няма общо твърдение, че мрежата е ограничението или честотната лента на паметта е ограничението и т.н. Дори и за модели от същата спецификация, можем да изберем да прехвърлим изискванията за ресурси и можем да изберем да създадем по-балансирана система, но наличието на по-голяма честотна лентана паметта винаги е от полза. Трудно е да се отговори на този въпрос без ограничения.

Когато проектираме GPT-4.5, може да се нуждаем системата да има някакъв вид атрибут, който трябва да бъде генериран под човешко ръководство. Следователно, съвместният дизайн е много важен за формиране на архитектурата на модела и архитектурните елементи и до известна степен свързва системата и аспектите на машинното обучение. Ако системата има атрибут, който не искаме да имаме много, моята идеална ситуация е, че всичко трябва да бъде разединено, за да се даде максимално пространство един на друг.

Понякога нещата са свързани заедно и трябва да отговорим на изискванията на инфраструктурата или нещата трябва да бъдат такива. През повечето време, се нуждаем от балансирана система и балансирана комуникация. И най-доброто средство за корекция, което имаме, са всички тези съвместни дизайни.

Сам Алтман: Колко сме далеч от тази идеална системна цел?

Амин Тутунчиан: Все още сме далеч от тази цел. Процесът на изграждане на система винаги е такъв: първо има идеализиран поглед върху това как трябва да работят нещата и след това да се помирят тези различия със съществуващите ресурси.

Мисля, че не го правим за теория за теория, а просто да обсъдим какво искаме да стане, да го реализираме и да се доближим възможно най-много до този идеал. Това може да е най-вълнуващата част от системното поле. Хората казваха, че това е елегантен дизайн на система и в крайна сметка историята ще ни каже дали този избор е правилен или грешен.

Сам Алтман: Ако можехте да получите отговор на проблем в машинното обучение преди следващото голямо обучение, какво най-много бихте искали да знаете?

Алекс Пайно: Бих искал да знам какви алгоритми трябва да използваме при ограничени данни и специфи