Обучение срещу Inference: Двете страни на AI монетата
За да разберем значението на inference, е важно да го разграничим от неговия аналог: обучението (training). AI моделите, двигателите на интелигентните приложения, преминават през две отделни фази.
Обучение (Training): Това е изчислително интензивната фаза, в която AI моделът се учи от масивни набори от данни. Представете си го като модел, който посещава училище, усвоявайки огромни количества информация, за да развие своята интелигентност. Тази фаза изисква огромна изчислителна мощност и графичните процесори (GPU) на Nvidia исторически са се отличавали тук, предлагайки възможностите за паралелна обработка, необходими за обработка на сложните изчисления, включени в обучението.
Inference: След като моделът е обучен, той е готов да бъде внедрен и пуснат в действие. Тук идва inference. Inference е процесът на използване на обучения модел за правене на прогнози или вземане на решения въз основа на нови данни. Това е като модел, който се дипломира и прилага знанията си в реалния свят. Въпреки че е по-малко изчислително натоварващ от обучението, inference изисква скорост, ефективност и често ниска консумация на енергия.
Разграничението е от решаващо значение, тъй като хардуерните изисквания за обучение и inference се различават значително. Докато графичните процесори на Nvidia доминират на пазара за обучение, пазарът на inference представлява по-разнообразна и конкурентна среда.
Защо Inference набира скорост
Няколко фактора допринасят за нарастващото значение на inference на пазара на AI чипове:
Разпространението на AI приложения: AI вече не е ограничен до изследователски лаборатории и технологични гиганти. Той бързо прониква във всеки аспект от живота ни, от смартфони и интелигентни домове до автономни превозни средства и медицинска диагностика. Това широко разпространение означава, че inference, процесът на действително използване на AI модели, се случва в безпрецедентен мащаб.
Edge Computing: Възходът на edge computing е друг основен двигател. Edge computing включва обработка на данни по-близо до източника, вместо да се изпращат до централизирани облачни сървъри. Това е от решаващо значение за приложения, изискващи отговори в реално време, като например самоуправляващи се автомобили или индустриална автоматизация. Edge устройствата, които често работят в среда с ограничена мощност, се нуждаят от чипове, оптимизирани за ниска мощност и ефективен inference.
Оптимизиране на разходите: Докато обучението на AI модел е еднократен (или рядък) разход, inference е текущ оперативен разход. С разрастването на AI внедряванията, разходите за inference могат да станат значителни. Това стимулира търсенето на чипове, които могат да извършват inference по-ефективно, намалявайки консумацията на енергия и общите оперативни разходи.
Изисквания за латентност: Много AI приложения, особено тези, включващи взаимодействия в реално време, изискват ниска латентност. Това означава, че времето, необходимо на AI модела да обработи данните и да генерира отговор, трябва да бъде минимално. Чиповете, оптимизирани за inference, са проектирани да минимизират тази латентност, позволявайки по-бързи и по-отзивчиви AI изживявания.
Усъвършенстване на AI моделите: С усъвършенстването и специализирането на AI моделите, необходимостта от оптимизиран хардуер за inference се увеличава. Графичните процесори с общо предназначение, макар и отлични за обучение, може да не са най-ефективното решение за изпълнение на специфични, високо настроени AI модели.
Появата на претендентите: Разнообразяващ се пейзаж
Нарастващото значение на inference привлича вълна от конкуренти, които искат да оспорят господството на Nvidia. Тези компании използват различни стратегии и технологии, за да се утвърдят на този процъфтяващ пазар:
Стартиращи компании със специализирани архитектури: Многобройни стартиращи компании разработват чипове, специално проектирани за inference. Тези чипове често се отличават с нови архитектури, оптимизирани за специфични AI натоварвания, като обработка на естествен език или компютърно зрение. Примери за такива компании са Graphcore, Cerebras Systems и SambaNova Systems. Тези компании залагат на идеята, че специализираният хардуер може да превъзхожда графичните процесори с общо предназначение в специфични задачи за inference.
Решения, базирани на FPGA: Field-Programmable Gate Arrays (FPGA) предлагат гъвкава алтернатива на традиционните графични процесори и ASIC (Application-Specific Integrated Circuits). FPGA могат да бъдат препрограмирани след производството, което им позволява да бъдат адаптирани към различни AI модели и алгоритми. Компании като Xilinx (сега част от AMD) и Intel използват FPGA, за да предоставят адаптивни и ефективни решения за inference.
Разработка на ASIC: ASIC са специално проектирани чипове, създадени за конкретна цел. В контекста на AI, ASIC могат да бъдат проектирани да осигурят максимална производителност и ефективност за специфични натоварвания на inference. Tensor Processing Unit (TPU) на Google, използван широко в собствените му центрове за данни, е отличен пример за ASIC, проектиран както за обучение, така и за inference. Други компании също се занимават с разработка на ASIC, за да получат конкурентно предимство на пазара на inference.
Утвърдени производители на чипове, разширяващи своите AI предложения: Традиционните производители на чипове, като Intel, AMD и Qualcomm, не стоят безучастно. Те активно разширяват своите продуктови портфейли, за да включат чипове, оптимизирани за AI inference. Intel, например, използва своя опит в областта на процесорите и придобива компании, специализирани в AI ускорители, за да укрепи позицията си. Придобиването на Xilinx от AMD му осигурявасилна FPGA-базирана платформа за inference. Qualcomm, лидер в мобилните процесори, интегрира възможности за AI ускорение в своите чипове, за да захранва AI приложения на смартфони и други edge устройства.
Доставчици на облачни услуги, проектиращи свои собствени чипове: Големите доставчици на облачни услуги, като Amazon Web Services (AWS) и Google Cloud, все повече проектират свои собствени персонализирани чипове за AI натоварвания, включително inference. Чипът Inferentia на AWS, например, е специално проектиран да ускорява inference в облака. Тази тенденция позволява на доставчиците на облачни услуги да оптимизират своята инфраструктура за своите специфични нужди и да намалят зависимостта си от външни доставчици на чипове.
Битката за господство в Inference: Ключови съображения
Конкуренцията на пазара на AI inference не е само за сурова изчислителна мощност. Няколко други фактора са от решаващо значение за определяне на успеха:
Софтуерна екосистема: Силната софтуерна екосистема е от съществено значение за привличане на разработчици и улесняване на внедряването на AI модели на конкретен чип. Платформата CUDA на Nvidia, платформа за паралелни изчисления и модел за програмиране, е основно предимство на пазара за обучение. Конкурентите работят усилено, за да разработят надеждни софтуерни инструменти и библиотеки, които да поддържат техния хардуер.
Енергийна ефективност: Както бе споменато по-рано, енергийната ефективност е от решаващо значение за много приложения за inference, особено тези в периферията (edge). Чиповете, които могат да осигурят висока производителност на ват, ще имат значително предимство.
Цена: Цената на чиповете за inference е основен фактор, особено за широкомащабни внедрявания. Компаниите, които могат да предложат конкурентни цени, като същевременно поддържат производителността, ще бъдат добре позиционирани.
Мащабируемост: Способността за ефективно мащабиране на внедряванията на inference е от решаващо значение. Това включва не само производителността на отделните чипове, но и способността за свързване и управление на множество чипове в клъстер.
Гъвкавост и програмируемост: Докато ASIC предлагат висока производителност за специфични натоварвания, те нямат гъвкавостта на графичните процесори и FPGA. Способността за адаптиране към развиващите се AI модели и алгоритми е ключово съображение за много потребители.
Сигурност: С нарастващото използване на AI в чувствителни приложения, като здравеопазване и финанси, сигурността става първостепенна.
Бъдещето на Inference: Многостранен пейзаж
Пазарът на inference е готов за значителен растеж и диверсификация. Малко вероятно е една компания да доминира по начина, по който Nvidia го прави в пространството за обучение. Вместо това, вероятно ще видим многостранен пейзаж с различни чип архитектури и доставчици, обслужващи специфични нужди и приложения.
Конкуренцията ще бъде ожесточена, стимулирайки иновациите и разширявайки границите на възможното с AI. Това в крайна сметка ще бъде от полза за потребителите, което ще доведе до по-бързи, по-ефективни и по-достъпни AI решения. Възходът на inference не е само за оспорване на господството на Nvidia; става въпрос за отключване на пълния потенциал на AI и превръщането му в достъпен за по-широк кръг от приложения и индустрии. Следващите години ще бъдат определящ период за този критичен сегмент от пазара на AI чипове, оформяйки бъдещето на начина, по който AI се внедрява и използва по целия свят.