Икономиката на AI Inference

Като изкуственият интелект (AI) продължава бързата си еволюция и интеграция в различни индустрии, пред бизнеса се очертава ключово предизвикателство: максимизиране на стойността, получена от тези мощни технологии. Ключов аспект на това предизвикателство е разбирането на икономиката на inference, процесът на използване на обучен AI модел за генериране на прогнози или резултати от нови данни.

Inference представлява уникално изчислително изискване в сравнение с обучението на модела. Докато обучението включва значителни първоначални разходи за обработка на огромни масиви от данни и идентифициране на модели, inference води до текущи разходи при всяко взаимодействие. Всеки подтик или вход, подаден към модела, задейства генерирането на токени, основните единици данни, и всеки токен носи изчислителни разходи.

Следователно, тъй като AI моделите стават по-сложни и широко използвани, обемът на генерираните токени се увеличава, което води до по-високи изчислителни разходи. За организациите, които се стремят да използват AI ефективно, целта е да генерират голям обем токени с оптимална скорост, точност и качество на услугата, като същевременно държат изчислителните разходи под контрол.

AI екосистемата активно преследва стратегии за намаляване на разходите за inference и подобряване на ефективността. Напредъкът в оптимизацията на моделите, съчетан с разработването на енергийно ефективна ускорена изчислителна инфраструктура и всеобхватни решения за цялостен технологичен стек, допринесе за тенденцията към намаляване на разходите за inference през последната година.

Според доклада AI Index 2025 на Института за AI, ориентиран към човека към Станфордския университет, разходите за inference за система с производителност на ниво GPT-3.5 са намалели драстично между ноември 2022 г. и октомври 2024 г. Разходите за хардуер също са намалели, като енергийната ефективност се подобрява всяка година. Освен това, моделите с отворени тегла стесняват пропастта в производителността със затворените модели, което допълнително намалява бариерите пред приемането на усъвършенстван AI.

Тъй като моделите напредват, създават повече търсене и произвеждат повече токени, организациите трябва да мащабират своите ускорени изчислителни ресурси, за да предоставят следващото поколение инструменти за AI разсъждения. Ако това не бъде направено, това може да доведе до увеличени разходи и консумация на енергия.

Тази статия предоставя основни познания за икономиката на inference, като дава възможност на организациите да разработват ефективни, рентабилни и мащабируеми AI решения.

Ключови концепции в икономиката на AI Inference

Запознаването с основната терминология на икономиката на AI inference е от решаващо значение за разбирането на нейното значение.

  • Токени: Основните единици данни в AI модела, получени от текст, изображения, аудио и видео по време на обучението. Tokenization включва разбиване на данните на по-малки, управляеми единици. По време на обучението моделът научава връзките между токените, което му позволява да извършва inference и да генерира точни резултати.

  • Производителност (Throughput): Количеството данни, което моделът може да обработи и изведе в рамките на определен период от време, често измерено в токени в секунда. По-високата производителност показва по-ефективно използване на инфраструктурните ресурси.

  • Латентност (Latency): Времевото закъснение между въвеждането на подкана и получаването на отговора на модела. По-ниската латентност се превръща в по-бързи отговори и по-добро потребителско изживяване. Ключовите показатели за латентност включват:

    • Време до първи токен (TTFT): Времето, необходимо на модела да произведе първия изходен токен след получаване на потребителска подкана, отразяващо първоначалното време за обработка.
    • Време за изходен токен (TPOT): Средното време за генериране на следващи токени, известно също като ‘междутокенова латентност’ или ‘токен до токен латентност’.

Въпреки че TTFT и TPOT са полезни бенчмаркове, фокусирането единствено върху тях може да доведе до неоптимална производителност или увеличени разходи.

  • Реална производителност (Goodput): Холистичен показател, който измерва постигнатата производителност, като същевременно поддържа целевите нива на TTFT и TPOT. Goodput предоставя по-изчерпателен изглед на системната производителност, като гарантира съгласуваност между производителността, латентността и разходите за подкрепа на оперативната ефективност и положителното потребителско изживяване.

  • Енергийна ефективност: Мярка за това колко ефективно AI системата преобразува енергията в изчислителен изход, изразена като производителност на ват. Ускорените изчислителни платформи могат да помогнат на организациите да максимизират токените на ват и да минимизират консумацията на енергия.

Закони за мащабиране и разходи за Inference

Трите закона за мащабиране на AI предоставят допълнителна информация за икономиката на inference:

  • Предварително обучение (Pretraining Scaling): Оригиналният закон за мащабиране, който демонстрира, че увеличаването на размера на набора от данни за обучение, броя на параметрите на модела и изчислителните ресурси води до предвидими подобрения в разузнаването и точността на модела.

  • Последващо обучение (Post-training): Процес, при който моделите се настройват фино за конкретни задачи и приложения. Техники като retrieval-augmented generation (RAG) могат да подобрят точността чрез извличане на подходяща информация от корпоративни бази данни.

  • Мащабиране по време на тест (Test-time Scaling): Известна още като ‘дълго мислене’ или ‘разсъждение’, тази техника включва разпределяне на допълнителни изчислителни ресурси по време на inference за оценка на множество възможни резултати, преди да се избере най-добрият отговор.

Въпреки че техниките за последващо обучение и мащабиране по време на тест стават все по-усъвършенствани, предварителното обучение остава решаващ аспект на мащабирането на моделите и поддържането на тези усъвършенствани техники.

Постигане на печеливш AI с цялостен подход

Моделите, които използват мащабиране по време на тест, генерират множество токени за справяне със сложни проблеми, което води до по-точни и уместни резултати, но също и до по-високи изчислителни разходи в сравнение с моделите, които преминават само предварително и последващо обучение.

По-интелигентните AI решения налагат генериране на повече токени за решаване на сложни задачи, докато висококачественото потребителско изживяване изисква генериране на тези токени възможно най-бързо. Колкото по-интелигентен и бърз е AI моделът, толкова повече стойност предоставя на бизнеса и клиентите.

Организациите трябва да мащабират своите ускорени изчислителни ресурси, за да доставят AI инструменти за разсъждение, които могат да се справят със сложно решаване на проблеми, кодиране и многоетапно планиране, без да водят до прекомерни разходи.

Това изисква както усъвършенстван хардуер, така и напълно оптимизиран софтуерен стек. Пътната карта на продуктите на AI фабриката на NVIDIA е проектирана да отговори на тези изчислителни изисквания и да се справи със сложността на inference, като същевременно подобрява ефективността.

AI фабриките интегрират високопроизводителна AI инфраструктура, високоскоростни мрежи и оптимизиран софтуер, за да позволят интелигентност в мащаб. Тези компоненти са проектирани да бъдат гъвкави и програмируеми, което позволява на бизнеса да приоритизира области, критични за техните модели или нужди от inference.

За да се рационализират операциите при внедряване на масивни AI модели за разсъждение, AI фабриките работят на високопроизводителна система за управление на inference с ниска латентност. Тази система гарантира, че скоростта и производителността, необходими за AI разсъждения, са изпълнени на възможно най-ниска цена, като се максимизира генерирането на приходи от токени.

Чрез разбиране и справяне с икономиката на inference, организациите могат да отключат пълния потенциал на AI и да постигнат значителна възвръщаемост на инвестициите си. Стратегически подход, който отчита ключови показатели, закони за мащабиране и значението на цялостното решение, е от съществено значение за изграждане на ефективни, рентабилни и печеливши AI приложения.