От бърза печалба до революция в изкуствения интелект: Ноам Шазир и Джеф Дийн

Зората на еволюцията на AI: 25-годишно пътешествие от PageRank до AGI

Две светила на технологичната одисея на Google, Джеф Дийн, настоящият главен учен, и Ноам Шазир, ключова фигура зад модела Transformer, който наскоро се присъедини отново към компанията, наскоро проведоха вълнуващ диалог. Воден от известния подкастър Дваркеш Пател, техният разговор предложи поглед към еволюцията на AI, обхващаща от основните дни на MapReduce до трансформиращата ера на Transformer и MoE архитектурите.

Тези опитни ветерани, с комбиниран опит от десетилетия в Google, не само са свидетели, но и активно са оформили определящите технологии на интернет и изкуствения интелект. Иронично е, че Шазир призна, че първоначалната му мотивация да се присъедини към Google е била краткосрочна финансова цел, план, който е бил драматично променен от последващия му принос към областта.

Настоящото състояние и бъдещата траектория на AI изчисленията

В обширен двучасов разговор Дийн и Шазир разкриха прозрения за настоящия статус на AI изчисленията, разкривайки, че:

  • Мащабът на операциите е надхвърлил отделните центрове за данни; обучението на Gemini сега обхваща множество центрове за данни в различни метрополни райони, работещи асинхронно.
  • Има значително място за растеж в мащабирането на изчислителната мощност за inference, тъй като взаимодействието с AI остава значително по-рентабилно от традиционното четене.
  • Бъдещите моделни архитектури са предвидени да надминат гъвкавостта на MoE, позволявайки независимо развитие на различни моделни компоненти от различни екипи.

Прозрения от окопите: Програми за откриване на грешки и бъдещи архитектури

Разговорът също предизвика интерес в социалните медии, като потребителите подчертаха интригуващи концепции, като например:

  • Потенциала за съхраняване на огромни MoE модели в паметта.
  • Неочакваните ползи от грешки в кода, които, с увеличаване на мащаба, могат неволно да доведат до революционни открития.

Дийн оспори твърдението, че AI изчисленията са непосилно скъпи. Сравнявайки цената на ангажиране с книга спрямо взаимодействието с AI за същата книга, той илюстрира убедителна гледна точка:

Най-напредналите езикови модели работят на учудващо ниска цена от приблизително $10^{-18}$ на операция, което се равнява на милион обработени токени за един долар. За разлика от това, закупуването на книга с меки корици предлага само 10 000 токена за долар.

Тази рязка разлика - стократно предимство в разходите за AI взаимодействие - подчертава неизползвания потенциал за подобряване на AI интелигентността чрез увеличена изчислителна мощност за inference.

От инфраструктурна гледна точка, нарастващото значение на изчисленията по време на inference би могло да промени планирането на центровете за данни. Това може да наложи хардуер, специално пригоден за задачи за inference, наподобяващ TPU от първо поколение на Google, първоначално проектирани за inference и по-късно адаптирани за обучение.

Разпределени и асинхронни изчисления: Нова парадигма

Нарастващият акцент върху inference предполага, че непрекъснатата комуникация между центровете за данни може да стане ненужна, което потенциално води до по-разпределен и асинхронен изчислителен модел.

Gemini 1.5 вече пое по този път, използвайки изчислителни ресурси в няколко големи града. Високоскоростните мрежи синхронизират изчисленията от различни центрове за данни, постигайки безпрецедентни мащаби за обучение. За големи модели, където всяка стъпка на обучение може да отнеме няколко секунди, дори мрежова латентност от 50 милисекунди оказва минимално въздействие.

В областта на inference чувствителността към латентност се превръща в критичен фактор. Докато незабавните отговори изискват оптимизирана производителност с ниска латентност, неспешни задачи, като сложен контекстуален анализ, могат да толерират по-дълги времена за обработка.

По-адаптивна и ефективна система би могла асинхронно да управлява множество задачи, подобрявайки общата производителност, като същевременно минимизира времето за изчакване на потребителите. Освен това, алгоритмични подобрения, като използването на по-малки модели за чернови, могат да облекчат проблемите в процеса на inference. Този подход включва по-малки модели, генериращи потенциални токени, които след това се проверяват от по-големи модели, което значително ускорява процеса на inference чрез паралелизация.

Шазир добави, че по време на асинхронното обучение всяка реплика на модела работи независимо, изпращайки актуализации на градиента към централна система за асинхронно прилагане. Въпреки теоретичните последици от незначителни колебания на параметрите, този метод се е доказал като забележително успешен.

За разлика от това, синхронното обучение предлага стабилност и възпроизводимост, предпочитание за много изследователи. За да се осигури повторяемост при обучението, Дийн подчерта практиката на регистриране на операции, особено актуализации на градиента и синхронизация на партиди данни. Чрез възпроизвеждане на тези логове дори асинхронното обучение може да даде възпроизводими резултати, което прави отстраняването на грешки по-лесно за управление и смекчаване на несъответствия, причинени от фактори на околната среда.

Случайната роля на грешките

Разширявайки се върху това, Шазир въведе интригуваща гледна точка:

Докато моделите за обучение срещат различни грешки, присъщата толерантност към шум на тези модели позволява саморегулиране, което води до непредвидени резултати. Някои грешки дори дават положителни ефекти, представяйки възможности за подобрение, тъй като мащабът усилва експерименталните аномалии.

Когато беше попитан за практики за отстраняване на грешки, Шазир описа подхода им за провеждане на множество малки експерименти за бърза валидация. Този метод опростява кодовата база и съкращава експерименталните цикли до часове вместо седмици, улеснявайки бързата обратна връзка и корекции.

Дийн се съгласи, отбелязвайки, че много експерименти с първоначално неблагоприятни резултати по-късно могат да дадат решаващи прозрения. Въпреки това, изследователите са изправени пред предизвикателството на сложността на кода; докато постепенните подобрения са необходими, те също така въвеждат предизвикателства пред производителността и поддръжката, налагащи баланс между чистотата на системата и иновациите.

Органичната структура на бъдещите модели

Дийн и Шазир предвиждат значителна промяна в AI моделите от монолитни структури към модулни архитектури.

Модели като Gemini 1.5 Pro вече използват архитектура Mixture of Experts (MoE), активирайки различни компоненти въз основа на задачата. Например, математическите проблеми ангажират математически компетентната секция, докато обработката на изображения активира съответния специализиран модул.

Въпреки това, настоящите моделни структури остават донякъде твърди, като експертните модули са с еднакъв размер и им липсва гъвкавост. Дийн предложи по-далновидна визия: бъдещите модели трябва да възприемат органична структура, позволяваща на различни екипи независимо да развиват или подобряват различни части на модела.

Например, екип, специализиран в езиците на Югоизточна Азия, би могъл да усъвършенства съответния модул, докато друг се фокусира върху подобряване на разбирането на кода. Този модулен подход не само повишава ефективността на развитие, но и позволява на глобалните екипи да допринасят за напредъка на модела.

Технически, моделите могат непрекъснато да оптимизират отделни модули чрез дестилация. Това включва кондензиране на големи, високопроизводителни модули в по-малки, ефективни версии, които след това продължават да учат нови знания.

Рутер може да избере подходящата версия на модула въз основа на сложността на задачата, балансирайки производителността и ефективността - концепция, централна за архитектурата Pathway на Google.

Тази нова архитектура изисква стабилна инфраструктура, включително мощни TPU клъстери и достатъчно високочестотна памет (HBM). Въпреки че всяко повикване може да използва само част от параметрите на модела, цялата система трябва да поддържа целия модел в паметта, за да обслужва едновременни заявки.

Настоящите модели могат да разложат задача на 10 подзадачи с 80% успеваемост. Бъдещите модели биха могли потенциално да разложат задача на 100 или 1000 подзадачи, постигайки 90% или по-висока успеваемост.

Моментът “Holy Shit”: Точно разпознаване на котки

Поглеждайки назад, 2007 г. отбеляза значителен етап за големите езикови модели (LLM).

По това време Google обучи N-gram модел, използвайки 2 трилиона токена за машинен превод. Въпреки това, разчитането на дисково съхранение за N-gram данни доведе до висока латентност поради обширни дискови I/O (напр. 100 000 търсения/дума), отнемайки 12 часа за превод на едно изречение.

За да се справи с това, те разработиха няколко стратегии, включително компресиране на паметта, разпределена архитектура и оптимизация на API за пакетна обработка:

  • Компресиране на паметта: Зареждане на N-gram данни изцяло в паметта, за да се избегне дискова I/O.
  • Разпределена архитектура: Разпределяне на данни между множество машини (напр. 200) за паралелни заявки.
  • Оптимизация на API за пакетна обработка: Намаляване на разходите за всяка заявка за подобряване на производителността.

През този период изчислителната мощност започна да следва закона на Мур, което доведе до експоненциален растеж.

“От края на 2008 г., благодарение на закона на Мур, невронните мрежи наистина започнаха да работят.”

Когато беше попитан за момент “Holy shit” - момент на неверие, че дадено изследователско усилие всъщност е проработило - Джеф разказа за проект на ранен екип на Google, където те обучиха модел да научи характеристики на високо ниво (като разпознаване на котки и пешеходци) от видео кадри в YouTube. Чрез разпределено обучение (2000 машини, 16 000 ядра) те постигнаха мащабно обучение без надзор.

След предварително обучение без надзор, производителността на модела в задачи с надзор (ImageNet) се подобри с 60%, демонстрирайки потенциала на мащабно обучение и обучение без надзор.

Отговаряйки на въпроса дали Google остава предимно компания за извличане на информация, Джеф подчерта:

“AI изпълнява първоначалната мисия на Google.”

По същество, AI не само извлича информация, но и разбира и генерира сложно съдържание, с огромен бъдещ потенциал. Що се отнася до бъдещата посока на Google, “Не знам.”

Въпреки това, човек може да очаква интегриране на Google и някакъв код с отворен код в контекста на всеки разработчик. С други думи, като даде възможност на моделите да обработват повече токени, търсенето в рамките на търсенето допълнително ще подобри възможностите и полезността на модела.

Този концепт вече се експериментира вътрешно в Google.

“Всъщност, ние вече проведохме по-нататъшно обучение на модела Gemini за вътрешни разработчици на нашата вътрешна кодова база.”

По-точно, Google вътрешно постигна целта 25% от нейния код да бъде написан от AI.

Най-щастливите времена в Google

Интересното е, че дуото сподели и повече интригуващи преживявания, свързани с Google.

За Ноам през 1999 г. присъединяването към голяма компания като Google първоначално не беше привлекателно, тъй като той чувстваше, че неговите умения могат да бъдат недостатъчно използвани. Въпреки това, след като видя графиката на индекса на дневния обем на търсенията на Google, той бързо промени мнението си:

“Тези хора непременно ще успеят и изглежда, че имат много интересни проблеми за решаване.”

Той се присъедини със специфично “малко” намерение:

“Да направя малко пари и след това щастливо да преследвам собствените си изследователски интереси в областта на AI.”

След като се присъедини към Google, той се срещна със своя ментор, Джеф (на новите служители бяха назначени ментори) и те си сътрудничиха по няколко проекта.

В този момент Джеф се намеси със собственото си признание за Google:

“Харесва ми широкия мандат на Google за RM визията (Отзивчива и мултимодална), дори и да е една посока, можем да правим много малки проекти.”

Това също предостави на Ноам свободата, която накара човека, който първоначално планираше да “удари и да избяга”, да остане дългосрочно.

Междувременно, когато темата се обърна към Джеф, неговата дипломна работа за паралелно обратно разпространение беше преразгледана.

Тази работа от 8 страници стана най-добрата дипломна работа през 1990 г. и е запазена в библиотеката на Университета в Минесота. В нея Джеф изследва два метода за паралелно обучение на невронни мрежи, базирани на обратно разпространение:

  • Подход с разделени модели: Представяне на цялата невронна мрежа на всеки процесор и разделяне на входните модели между наличните процесори.
  • Подход с разделена мрежа (конвейерен подход): Разпределяне на невроните на невронната мрежа между наличните процесори, образувайки комуникиращ пръстен. Характеристиките преминават през този конвейер, обработвани от невроните на всеки процесор.

Той тества тези методи с невронни мрежи с различни размери и различни входни данни. Резултатите показват, че за подхода с разделени модели, по-големите мрежи и повече входни модели дават по-добро ускорение.

Най-забележителното е, че работата разкрива как е изглеждала една “голяма” невронна мрежа през 1990 г.:

“Невронна мрежа с 3 слоя с 10, 21 и 10 неврона на слой се считаше за много голяма.”

Джеф си спомни, че е използвал до 32 процесора за своите тестове.

(По това време той вероятно не е могъл да си представи, че 12 години по-късно той, заедно с Андрю Нг, Куок Ле и други, ще използва 16 000 CPU ядра, за да идентифицира котки от масивни данни.)

Въпреки това, Джеф призна, че за да бъдат тези изследователски открития наистина ефективни, “имахме нужда от около милион пъти повече изчислителна мощност.”

По-късно те обсъдиха потенциалните рискове от AI, особено проблема с обратната връзка, когато AI стане изключително мощен. С други думи, AI може да влезе в неконтролируем цикъл на ускорение (т.е. “експлозия на интелигентността”), като пише код или подобрява своите алгоритми.

Това може да доведе до бързо надминаване на човешкия контрол от AI, дори създавайки злонамерени версии. Както каза водещият, представете си “милион топ програмисти като Джеф, евентуално превръщащи се в милион зли Джефове.”

(Netizen): “Отключи се нов кошмар, хаха!”

Накрая, размишлявайки за техните най-щастливи времена в Google, и двамата споделиха своите спомени.

За Джеф, най-радостните моменти в ранните години на Google бяха свидетели на експлозивния растеж на трафика на търсенията на Google.

“Да се построи нещо, което 2 милиарда души сега използват, е невероятно.”

Наскоро той беше развълнуван да строи неща с екипа на Gemini, за които хората не биха повярвали, че са възможни дори преди пет години, и той предвижда, че въздействието на модела ще се разшири допълнително.

Ноам повтори подобни преживявания и чувство за мисия, дори с обич спомена “микро-кухненските зони” на Google.

Това е специално пространство с около 50 маси, предлагащо кафе и закуски, където хората могат свободно да разговарят и да обменят идеи.

При това споменаване дори Джеф се оживи (doge).