Развитието на GPT-4.5, проект, започнат преди две години, представлява най-амбициозното начинание на OpenAI до момента. Този масивен проект включва съвместните усилия на стотици хора, като Сам Алтман, главен изпълнителен директор на OpenAI, отбеляза, че проектът изисква почти пълна организационна ангажираност.
Преодоляване на “катастрофални проблеми” при мащабно обучение
Пътешествието за създаване на GPT-4.5 не мина без трудности. Екипът се сблъска с многобройни ‘катастрофални проблеми’ по време на фазата на изследване и развитие. Използването на клъстер от 100 000 графични процесора разкри преди това невиждани, нисковероятни, но дълбоки инфраструктурни повреди. За да балансира бързината с оптималната производителност, системният екип на OpenAI беше принуден да възприеме подход ‘поправяй, докато вървим’. Един особено неуловим бъг тормозеше клъстера с чести грешки, оставайки неоткрит до приблизително 40% от процеса на обучение.
Въпреки тези предизвикателства, проектът GPT-4.5 катализира разработването на по-стабилен технологичен стек. Днес, малък екип от само 5-10 души може да репликира голям модел, подобен на GPT-4. Увеличението на производителността от GPT-4 до GPT-4.5 беше приблизително десетократно, давайки ‘интелигентност, която е трудна за количествено определяне, но е подобрена във всички аспекти’, резултат, който изненада дори собствения персонал на OpenAI.
Преместване на фокуса: От изчислителна мощност към ефективност на данните
OpenAI осъзна, че постигането на следващия десетократен или стократен скок в производителността зависи не от сурова изчислителна мощност, а от ефективността на данните – по-специално, способността да се извличат повече знания от същото количество данни, докато се използват по-големи изчислителни ресурси.
Архитектурата също се развива от едно-клъстерна към много-клъстерна парадигма. Бъдещите итерации на обучение могат да включват съвместно обучение в до 10 милиона графични процесора, което налага повишена устойчивост на грешки.
Диалогът на Сам Алтман с екипа на GPT-4.5
Следва компилирана компилация от дискусия между Сам Алтман и екипа на OpenAI GPT-4.5:
Сам Алтман: Какво е необходимо, за да се изгради толкова голям модел като GPT-4.5?
Алекс Паино: Започнахме този проект преди около две години. По това време OpenAI се готвеше да пусне нов голям изчислителен клъстер и нашият екип видя това като възможност да проведе серия от операции, за да определи функциите, които моделът трябва да включва, и проведе голям брой тестове за намаляване на риска.
Разработихме дълъг план за това, включващ целия технологичен стек от система до машинно обучение. Намаляването на рисковете и подготовката за обучение е дълъг процес на изпълнение, а самото обучение е много голям проект.
Амин Тутунчиан: Мисля, че този процес изисква тясно сътрудничество между екипа по машинно обучение и системния екип от самото начало, докато изясним какъв модел искаме да обучим и след това да започнем обучението.
Направихме прогнози както в машинното обучение, така и в системните аспекти, опитвайки се да стесним колкото е възможно повече разликата между очакванията и реалността. Но тъй като работният ни ритъм е бърз и трябва да използваме най-новите изчислителни ресурси, обучението на модела се превърна в нещо, което е трудно да се планира перфектно предварително.
Почти винаги започваме обучението с много нерешени проблеми и се опитваме да преодолеем предизвикателствата и да постигнем напредък по време на операцията. Основното решение е да добавите повече изчислителни ресурси.
Последният етап е изпълнението, което изисква много хора да инвестират много енергия и мотивация за дълго време, за да завършат процеса на обучение.
Сам Алтман: Колко голяма смятате, че е разликата между нашите очаквания и реалността?
Амин Тутунчиан: По отношение на системата, ние обикновено сме далеч от очакваното състояние в началото. Винаги сме изправени пред избор: дали да отложим началото и да изчакаме проблемът да бъде решен, или да започнем рано и да решим проблема в процеса. Това винаги изисква компромис, за да се избегнат необосновани забавяния в процеса.
Но почти винаги има някои неочаквани проблеми и това, което трябва да направим, е да се справим с тези възли колкото е възможно повече, да се справим с неизвестните фактори и да формулираме план за обучение на модела.
Алекс Паино: В този проект нашата цел е да направим GPT-4.5, което означава, че възможностите му трябва да бъдат 10 пъти по-интелигентни от GPT-4. Това е първоначалната цел, която си поставихме преди около 2 години.
Много неща се случиха по време на този процес. Мислехме дали можем да се справим по-добре или ще бъдем по-зле от очакваното? Това е много сложен процес, но в крайна сметка, по отношение на ефективните изчисления, които инвестирахме, получихме модел, който според нас е достигнал 10 пъти по-интелигентен от GPT-4.
Амин Тутунчиан: По отношение на изпълнението, времето, прекарано по проекта GPT-4.5, е далеч от това, което първоначално очаквахме.
Сам Алтман: Защо срещнахте толкова много проблеми, когато клъстерът се разшири от 10 000 карти до 100 000 карти?
Амин Тутунчиан: Мисля, че ако разработчиците на системи са достатъчно чувствителни, повечето проблеми могат да бъдат наблюдавани в малкия мащаб.
Някои проблеми не са уникални за етапа на обучение в голям мащаб, но често са се случвали и преди, но ще станат катастрофални проблеми, след като мащабът бъде увеличен, особено когато екипът не е предвидил, че тези проблеми ще се влошат до такава степен.
Сам Алтман: Какви неща са причинили катастрофални последици?
Амин Тутунчиан: Мисля, че инфраструктурните проблеми са добре известни, независимо дали процентът на отказ, типът на отказ или общото количество отказ е много висок. Клъстерът със 100 000 карти е мащабен примерен пул, така че открихме и проблеми, които доставчикът на изчислителна мощност не е наблюдавал.
Мрежата е една от тях, а отделните ускорители също могат да имат проблеми. Но това е и красотата на тази система - почти всички компоненти трябва да работят според очакванията, за да произведат очаквани резултати. Нашата работа е да минимизираме този проблем колкото е възможно повече.
Сам Алтман: Наистина е трудно да се работи на границата на размера на клъстера, но също така забелязах, че е станало много по-лесно да се правят неща, които вече не са на предната линия на технологиите. Обучението на GPT-4.5 изисква стотици хора, а OpenAI има почти всички на борда.
Но днес, ако трябваше да изберете най-малкия екип от OpenAI и да преобучите GPT-4 от нулата с всички знания и системна работа, които знаем, колко хора биха били необходими?
Алекс Паино: Мисля, че може да са необходими около 5 до 10 души, за да се направи модел от ниво GPT-4 сега. Технологичният стек е значително подобрен в процеса на завършване на GPT-4.5.
Всъщност, ние сме правили подобни неща в процеса на обучение на GPT-4.5 - обучихме GPT-4o, което е модел от ниво GPT-4, и го преобучихме, използвайки много от същото съдържание от изследователския проект GPT-4.5. По-малко хора бяха използвани за това обучение.
Сам Алтман: От ваша гледна точка, Дан? Защо е трудно да се обучават големи модели?
Даниел Селсам: Мисля, че е трудно да се направи нещо ново. Мисля, че дори само откриването, че някой друг е направил нещо, го прави много по-лесно, защото най-трудната част е да имаш вярата да направиш нещо на първо място. Мисля, че просто да знаеш, че нещо е възможно, е супер чийт код, който прави нещата много по-лесни.
Алекс Паино: Разширяваме изпълнението на предварително обучение на GPT до 10 пъти предишния му размер и винаги намираме някои интересни нови неща, които не можете непременно да предвидите.
Сам Алтман: Какво е необходимо, за да се постигне следващият 10x или 100x растеж в мащаба на предварителното обучение?
Даниел Селсам: Ефективност на данните. Архитектурата Transformer (т.е. GPT) е много ефективна в използването на данни. Той може да абсорбира и компресира информация добре и да постигне обобщение. Най-голямата му характеристика е, че може ефективно да абсорбира информация с изчислителни ресурси.
Въпреки това, дълбочината на прозрението, което получава от данните, е ограничена. Когато изчислителната мощност расте бързо и данните растат сравнително бавно, данните стават пречка за този стандартен модел. Това изисква алгоритмични иновации за разработване на методи, които могат да използват повече изчислителна мощност, за да научат повече знания от същото количество данни.
Сам Алтман: Какво друго мислите, че трябва да поддържаме разширяването?
Амин Тутунчиан: Моят отговор е за системата. Мисля, че огромното количество работа, необходима за GPT-4.5, е по същество неизбежният резултат от спецификациите на модела. Не можем да обучим GPT-4.5 със същата техническа архитектура като GPT-4.
По отношение на управлението на състоянието, тъй като необходимите изчислителни ресурси са надвишили капацитета на един клъстер, трябва да се обърнем към много-клъстерна архитектура за обучение. За да постигнем тази цел, трябва да интегрираме множество различни работни процеси за кратък период от време.
Въпреки че това наистина ни помогна да постигнем пробиви в етапа, за да постигнем следващата порядък на производителността, все още трябва да разрешим няколко известни, но временно отложени технически проблема - тези проблеми не могат да бъдат избегнати. Този вид технически компромис постоянно удължава цикъла на научноизследователска и развойна дейност на перфектната система и ние винаги правим стратегически компромиси в процеса на преследване на оптималния план за изпълнение.
Трябва да е ясно, че самата система не е крайната цел и нейната действителна изходна стойност е основното съображение. За следващото 10-кратно подобрение на производителността, мисля, че пробивът в устойчивостта на грешки е от решаващо значение. Трябва да изградим механизъм за устойчивост на грешки, който е дълбоко синергичен с натоварването, за да намалим значително безпокойството за експлоатация и поддръжка. Сложността на експлоатацията и поддръжката на текущите свръхголеми системи е съществено различна от предишните системи.
Сам Алтман: Знаете ли какъв процент от отказите са причинени от определени компоненти по време на обучението на GPT-4.5?
Амин Тутунчиан: Нямам конкретни числа за споделяне, но като цяло, в ранните етапи на разгръщане на ново поколение хардуер, системната работа често е изправена пред много технически предизвикателства, които не са напълно разбрани. Ние избрахме да продължим проекта, преди проблемът да бъде напълно дефиниран, което доведе до висок начален процент на отказ.
Но опитът показа, че с идентифицирането и разрешаването на първопричината, процентът на отказ ще намалее значително. Това явление по същество отразява нашето задълбочаване на разбирането на инфраструктурата - някои хора го наричат почистване на инфраструктурата или разбиране на основните проблеми на инфраструктурата.
Ранните етапи на изпълнение почти винаги са доста болезнени. Докато развиваме проекта, ние също непрекъснато откриваме и разрешаваме нови режими на отказ, но процентът на отказ постепенно ще намалее и нормалното време на работа ще стане по-дълго.
Това по същество е въпрос на компромиси с приоритетите: В ранните етапи на жизнения цикъл на инфраструктурата, рискът от отказ често е трудно да се оцени точно; и ако прекалено преследваме крайното идеално състояние (оригиналът е ‘City Estate’, идеалният дизайн на град-държава), това може да доведе до изключително лошо изпълнение на наличността на системата в ранните етапи.
Сам Алтман: Въпреки че моделът за разсъждение е ключов компонент от нашия бъдещ технологичен стек, нека временно се фокусираме върху границата на развитие на традиционния модел за предварително обучение. Да предположим, че имаме неограничена изчислителна мощност на GPU, неограничена мрежова честотна лента и неограничено захранване, но все още сме ограничени от съществуващите технически затруднения—включително проблемите с надеждността на системата, липсата на методи за обучение с устойчивост на грешки и ограниченията на съществуващите набори от данни.
Според нашия закон за еволюция за постигане на 100-кратно увеличение на мащаба във всяка основна версия на GPT номер, въз основа на текущите технически граници, какво ниво може да достигне развитието на модела за предварително обучение? Конкретно за моделите от серията GPT, с нашата съществуваща система от знания, какъв вид модел теоретично можем да обучим? Може ли да се направи GPT-5.5?
Алекс Паино: От гледна точка на машинното обучение и развитието на алгоритми, все още не сме достигнали ясна теоретична горна граница. Всъщност, ние едва започваме да изследваме алгоритми с по-висока ефективност на данните и как да използваме по-пълно съществуващите ресурси от данни. Тази ситуация е много интересна - дори модели като GPT-4 са до голяма степен разработени под ограниченията на ограничени изчислителни ресурси, което също определя посоката на повечето предишни изследвания.
Но ситуацията е напълно различна сега. От GPT-4.5, в някои ключови измерения, данните, а не изчисленията, стават основното ограничение. Тази промяна прави свързаните изследвания по-малко вълнуващи.
Сам Алтман: Но това наистина е невероятен напредък и светът може да не осъзнава напълно, че изчислителните ресурси вече не са основната пречка в най-добрия модел, който можем да изградим. Тази промяна е дълбока, в крайна сметка, ние сме живели в среда, ограничена от изчисления, твърде дълго.
Сам Алтман: Какъв е най-интересният опит в машинното обучение, който научихме в процеса на обучение на GPT-4.5? Просто говорете за това, което искате да споделите.
Амин Тутунчиан: Като цяло, най-провокиращите мисли са онези ситуации, които се отклоняват от нашите прогнози - особено когато се опитваме да разберем защо действителната производителност се отклонява от очакваната крива.
Алекс Паино: Едно от най-изненадващите открития за нас е, че мащабируемостта на различните компоненти на машинното обучение варира значително. Някои части могат да бъдат мащабирани добре, докато други не могат. Това е, което наистина осъзнахме в действителния процес на обучение. Този опит ни даде много вдъхновение.
Даниел Селсам: Мисля, че двете основни характеристики на парадигмата GPT са: първо, загубата на тест (метрика за измерване колко добре моделът се представя на невиждани тестови данни) може да бъде предсказана точно; второ, производителността на модела показва предвидимо подобрение с разширяването на мащаба. Още по-магически е, че намаляването на загубата на тест ще се трансформира в цялостно подобрено ниво на интелигентност по различни начини, които са трудни за количествено определяне, но са удивителни.
Сам Алтман: Абсолютно ли сте оптимисти за това? Напълно ли сте съгласни с това мнение?
Даниел Селсам: Всъщност, това, което искам да кажа е, че открихме особено интересни явления в теста GPT-4.5 - след повторно тестване, моделът показа много фини способности, които напълно надминаха очакванията на всички.
Сигурни сме, че той ще стане по-умен по различни начини, които не могат да бъдат дефинирани предварително, и след действителното разгръщане можем да наблюдаваме тези фини нива на подобрение от удовлетвореността на потребителите: по-силни запаси от общ смисъл, по-точни възможности за разбиране на контекста и по-деликатно семантично разбиране - това е точно магията, донесена от тези допълнителни загуби на тест. Според мен, Законът за мащабиране е перфектно проверен в това измерение.
Сам Алтман: Кой беше най-позитивният момент по време на целия процес на обучение? Какъв е любимият ви спомен? Очевидно има много болка, но се надявам, че тези болки са били облекчени.
Алекс Паино: Наистина имам такъв момент. Направихме много работа по машинно обучение по време на обучението. Мисля, че някои от промените, които направихме по време на операцията, имаха доста добро въздействие, може би по-добро от очакваното, което беше много вълнуващ момент за нас.
Амин Тутунчиан: За мен, едновременно с обучението, ние също изграждаме инфраструктура. Твърдо вярваме, че можем да преминем тази скала на производителността и имаме план и всички го изпълняват, но отнема много време. Това е упорита работа и определено по-трудна, отколкото си мислех. Моята прогноза беше грешна и подцених времето, необходимо за решаване на тези проблеми.
Моментът, когато екипът най-накрая преодоля тези ключови проблеми и производителността беше значително подобрена, все още е свеж в паметта ми. Можете ясно да почувствате енергийната трансформация на целия екип - всички изведнъж са пълни с енергия и се втурват към крайната цел с нова мотивация.
Най-магическото нещо е, че очакваното време за завършване, показано на нашия проследяващ състоянието, продължи да се съкращава от първоначалните две години и накрая се заключи в ясен времеви възел. Този видим напредък има неизмерим тласък на морала на екипа. Мисля, че това е красотата на това.
Искам да подчертая, че работата по машинно обучение никога не е спирала. Дори след започване на обучението, този процес на съвместно проектиране на машинно обучение продължава. Екипът по машинно обучение не само активно проследява онези въпроси, които бяха маркирани като ‘последваща обработка’, но и продължава да предоставя подобрения, които наистина оптимизират времето за обучение.
Това перфектно отразява нашия екипен дух - тук няма работна граница ‘всеки човек мете снега пред собствената си врата’, а наистина безпроблемно сътрудничество и тази кохезия е нашата най-голяма сила.
Сам Алтман: Външният свят обсъди много за предизвикателствата и точността на прогнозите на самото обучение. Но всъщност, всичко това се основава на изключително задълбочено планиране - можете ли да говорите повече за това подробно?
Алекс Паино: Това определено е най-задълбоченият ни план досега. Както казах, започнахме да се подготвяме за този проект година преди официалното започване на обучението. През този период проведохме множество мащабни тестове за контрол на риска.
Обръщаме специално внимание на постепенното въвеждане на всички подобрения: като започнем от основна конфигурация с висока степен на доверие - която може да се разбира като зряла архитектура, подобна на GPT-4, напълно овладяваме тази конфигурация на ниво машинно обучение - и след това добавяме нови функции слой по слой като градивни елементи.
Ключът е да се провери стриктно мащабируемостта на всяко подобрение в различни мащаби: не само да се видят подобрения на производителността, но и да се гарантира, че тези подобрения продължават да бъдат ефективни, тъй като мащабът на модела се разширява. Много подобрения се представят добре в тестове в малък мащаб, но ще се провалят в приложения в голям мащаб.
Следователно, ние поддържаме висока степен на бдителност през целия процес и продължаваме да повтаряме и подобряваме нашата методология за закон за разширяване. Чрез тази практика за контрол на риска, ние сме натрупали много ценен опит, който ще продължи да ръководи развитието на бъдещите модели от серията GPT.
Амин Тутунчиан: Спомням си особено интересен момент, който много ми липсва. Знаете ли, почти винаги се сблъскваме с различни грешки всеки път, когато започнем задача за обучение. Това вече е обичайно. Но ключът е да се гарантира, че напредъкът не е блокиран и винаги да се потвърждава, че текущият напредък наистина е на правилния път и дали тези грешки ще имат фатално въздействие върху здравето на обучението.
Въпреки че първоначално бяхме много уверени, че има големи дефекти, чрез цялата система за наблюдение, която изградихме, успяхме точно да различим първопричината за проблема: Дали е хардуерен отказ? Какъв тип хардуерен отказ? Дали е повреда на данните? Или е грешка в самия модел на машинно обучение? Или е състезателно състояние в кода?
По това време имахме няколко области за обсъждане на проблеми, отворени едновременно, с различни симптоми. След серия от поправки на грешки, бяхме заседнали: пред нас имаше множество неразрешени проблеми и всички си блъскаха главите - дали са причинени от различни грешки? Или е грешка на работа?
По-късно проведохме гласуване, за да позволим на членовете на екипа да гласуват за най-вероятната първопричина. Най-малко обещаващата опция удари истината: оказа се, че има проблем с функцията torch.sum нагоре по веригата на PyTorch, проста операция за сумиране.
Тази грешка е особено интересна. Знаете ли, ние основно използваме ядрото Triton и ще се върнем към операциите с torch само в някои маловажни гранични сценарии. И грешката на функцията torch.sum, предизвикана от нашия специфичен код, случайно ще причини незаконен достъп до памет поради характеристиките на разпределение на данните - направи грешка при изчисляване на отместването на паметта.
Най-драматичното нещо е, че когато инженер най-накрая локализира проблема и подаде поправка, всички отчети за грешки с различни симптоми изчезнаха. Всички развълнувано смениха канала Slack от ‘теорията за много грешки’ на ‘теорията за една грешка’ и сцената беше много щастлива.
Колко дълго се крие тази грешка? Съществува от ранните етапи на обучение и не е идентифицирана, докато индикаторът за напредък не премина около 40%. Процесът на откриване също беше пълен с драма: по това време, сложно ядро последователно извикваше последователности и второто повикване предизвика незаконен достъп до памет.
Въпреки че тази честота на срив е изключително ниска (случва се само веднъж на всеки няколкостотин или дори хиляди стъпки на обучение), лесно е да бъде пренебрегната като случаен отказ, но насоките на нашия екип са: никога не пускайте никакви аномалии. Най-добрата част от тази история се крие в тази упоритост да не се отказваме лесно.
Сам Алтман: Какво друго трябва да направите след започване на предварително обучение на GPT-4.5?
Алекс Паино: Всички ние трябва да наблюдаваме често кривата на загубите. В допълнение, трябва да продължим да оптимизираме системата и да подобряваме съвместното проектиране, което не беше завършено преди започване на обучението. Ние следим отблизо различните статистически данни по време на процеса на обучение, за да гарантираме, че няма неочаквани тенденции. В същото време, ние проучваме възможни планове за подобрение от гледна точка на машинното обучение. Въпреки че работата на ниво данни ще бъде временно намалена след започване на предварително обучение, все още има много задачи за обработка.
Амин Тутунчиан: Мисля, че машинното обучение до голяма степен зависи от правилната преценка. След започване на предварително обучение, изправени пред голямо количество шумове сигнали, ние сме като гадатели, тълкуващи утайка от чай, и трябва да преценим дали системата е здрава. Това е нашата отговорност.
Сам Алтман: На ниво система, какво ще ни ограничи от провеждането на обучение на модела? Дали е чип, процесор, памет, мрежа или захранване?
Амин Тутунчиан: Красотата на системата е, че при съвместно проектиране, натоварването може да се адаптира към инфраструктурата, която изграждате. Няма универсална поговорка, че мрежата е пречката или честотната лента на паметта е пречката и т.н. Дори и за модели от една и съща спецификация, можем да изберем да прехвърлим изискванията за ресурси. Можем да изберем да създадем по-балансирана система, но наличието на повече честотна лента на паметта винаги е от полза. Трудно е да се отговори на този въпрос без ограничаващи условия.
При проектирането на GPT-4.5, може да се наложи да имаме определен атрибут в системата, който трябва да бъде генериран чрез човешко ръководство. Следователно, съвместното проектиране е много важно за формиране на архитектурата на модела и архитектурните елементи и до известна степен свързва аспектите на системата и машинното обучение. Ако системата има атрибут, който не искаме да имаме много. Моята идеална ситуация е, че всичко трябва да бъде разделено, за да се даде на всеки най-много място.
Понякога нещата са свързани заедно и трябва да отговорим на изискванията на инфраструктурата или нещата трябва да бъдат така. През повечето време се нуждаем от балансирана система, балансирана комуникация. И най-доброто средство за регулиране, което имаме, са всички тези съвместни проекти.
Сам Алтман: Колко сме далеч от такава идеална цел на системата?
Амин Тутунчиан: Далеч сме от тази цел. Процесът на изграждане на система винаги е такъв: първо има идеализиран поглед върху това как трябва да работят нещата и след това тези разлики се съгласуват със съществуващите ресурси.
Не мисля, че го правим за теория заради теорията, а само за да обсъдим какво искаме да стане, да го реализираме и да се доближим възможно най-много до този идеал. Това може би е най-вълнуващата част от системната област. Хората казваха, че това е елегантен дизайн на системата и в крайна сметка историята ще ни покаже дали този избор е правилен или грешен.
Сам Алтман: Ако можехте да получите отговор на въпрос за машинно обучение преди следващото голямо обучение, какво най-много бихте искали да знаете?
Алекс Паино: Искам да знам кои алгоритми трябва да използваме при ограничени данни и специфични полета. Въпреки че това е широк въпрос, той наистина е най-критичният.
Сам Алтман: Ще проведете ли синхронно предварително обучение с 10 милиона графични процесора или повече в бъдеще?
Алекс Паино: Мисля, че ще има, но това може да не е традиционният модел за предварително обучение. Неговата форма може да бъде много различна от съществуващите технологии, но все пак ще запази сърцевината на обучението без надзор.
Амин Тутунчиан: Предпочитам полусинхронен модел. Поради физическите закони, пълната синхронизация не е много реалистична.
Даниел Селсам: Мисля, че е по-вероятно да бъде децентрализирано. Определено ще има 10 милиона графични процесора, работещи заедно в AI система, която се учи и изпълнява задачи, но подобно на различните части на мозъка, те може да не се свързват непременно един с друг.
Сам Алтман: Каква е разликата между текущите най-съвременни алгоритми и човешката ефективност на данните? Възможно ли е да настигнем в бъдеще?
Даниел Селсам: Двете са трудни за директно сравнение. Разликата в езиковото обучение определено е огромна. Ключът се крие в това как да се определи количеството информация, получена от човешките зрителни нерви. Мисля, че общата ефективност на данните на алгоритмите е много по-ниска от тази на хората.
В продължение на десетилетия дълбокото обучение се фокусира върху изчислителната ефективност. В допълнение към растежа на данните и изчислителната мощност, това, което наистина е изненадващо, е суперпозиционният ефект, произведен от подобренията на алгоритмите. Всеки път, когато производителността на алгоритмите се подобри с 10% или 20%, това ще има значителен ефект при