AI за бизнеса предизвикателства

Въпреки че всяка година се изливат безброй ресурси в обучението на големи езикови модели (LLM), остава значителна пречка: ефективното интегриране на тези модели в практически, полезни приложения.

Илюзията за фино настройване

Финото настройване и генерирането с разширена информация (RAG) обикновено се считат за добре установени методи за подобряване на знанията и възможностите на предварително обучени AI модели. Въпреки това, изпълнителният директор на Aleph Alpha, Йонас Андрулис, посочва, че реалността е по-сложна.

“Преди година имаше широко разпространено убеждение, че финото настройване е магическо решение. Ако една AI система не работеше както трябва, отговорът беше просто фино настройване. Не е толкова просто”, обясни той.

Въпреки че финото настройване може да промени стила или поведението на модела, то не е най-ефективният подход за преподаване на нова информация. Очакването, че само финото настройване може да реши всички проблеми с AI приложенията, е погрешно схващане.

RAG: Алтернативен подход

RAG предлага алтернатива, като функционира като библиотекар, който извлича информация от външен архив. Този подход позволява актуализации и промени в информацията в базата данни, без да се налага преобучение или фино настройване на модела. Освен това, генерираните резултати могат да бъдат цитирани и одитирани за точност.

“Специфичните знания винаги трябва да бъдат документирани и да не се съхраняват в параметрите на LLM”, подчерта Андрулис.

Въпреки че RAG предоставя многобройни предимства, успехът му зависи от правилната документация на ключови процеси, процедури и институционални знания във формат, който моделът може да разбере. За съжаление, това често не е така.

Дори когато документацията съществува, предприятията могат да се сблъскат с проблеми, ако документите или процесите разчитат на данни извън разпределението – данни, които се различават значително от данните, използвани за обучение на базовия модел. Например, модел, обучен само върху английски набори от данни, ще се затрудни с немска документация, особено ако тя съдържа научни формули. В много случаи моделът може да не успее да интерпретира данните изобщо.

Следователно, Андрулис предполага, че обикновено е необходима комбинация от фино настройване и RAG, за да се постигнат значими резултати. Този хибриден подход използва силните страни на двата метода, за да преодолее техните индивидуални ограничения.

Преодоляване на разделението

Aleph Alpha се стреми да се отличи като европейски DeepMind, като се справя с предизвикателствата, които пречат на предприятията и нациите да развият свои собствени суверенни AI.

Суверенният AI се отнася до модели, обучени или фино настроени с помощта на вътрешни набори от данни на дадена нация, на хардуер, изграден или разположен в нейните граници. Този подход гарантира поверителност, сигурност и контрол на данните, които са от решаващо значение за много организации и правителства.

“Стремим се да бъдем операционната система, основата за предприятията и правителствата да изградят своя собствена суверенна AI стратегия”, заяви Андрулис. “Целим да правим иновации, където е необходимо, като същевременно използваме отворен код и най-съвременни технологии, където е възможно.”

Въпреки че това понякога включва обучение на модели, като например Pharia-1-LLM на Aleph, Андрулис подчертава, че те не се опитват да копират съществуващи модели като Llama или DeepSeek. Техният фокус е върху създаването на уникални решения, които да отговорят на специфични предизвикателства.

“Винаги насочвам нашите изследвания да се фокусират върху значително различни неща, а не просто да копират това, което всички останали правят, защото това вече съществува”, каза Андрулис. “Не е необходимо да изграждаме друга Llama или DeepSeek, защото те вече съществуват.”

Вместо това, Aleph Alpha се концентрира върху изграждането на рамки, които опростяват и рационализират приемането на тези технологии. Неотдавнашен пример е тяхната нова архитектура за обучение без токенизатор, или “T-Free”, която има за цел да фино настрои модели, които могат да разберат данни извън разпределението по-ефективно.

Традиционните подходи, базирани на токенизатор, често изискват големи количества данни извън разпределението, за да се фино настрои ефективно модел. Това е скъпо от гледна точка на изчислителна мощност и предполага, че има достатъчно налични данни.

Архитектурата T-Free на Aleph Alpha заобикаля този проблем, като елиминира токенизатора. Ранните тестове на техния Pharia LLM на финландски език показаха 70 процента намаление на разходите за обучение и въглеродния отпечатък в сравнение с подходите, базирани на токенизатор. Този иновативен подход прави финото настройване по-достъпно и устойчиво.

Aleph Alpha също така е разработила инструменти за справяне с пропуските в документираните знания, които могат да доведат до неточни или безполезни заключения.

Например, ако два договора, свързани с въпрос за съответствие, си противоречат, “системата може да се обърне към човека и да каже: “Открих несъответствие… можете ли да предоставите обратна връзка дали това е действителен конфликт?””, обясни Андрулис.

Информацията, събрана чрез тази рамка, наречена Pharia Catch, може да бъде върната обратно в базата знания на приложението или да бъде използвана за фино настройване на по-ефективни модели. Тази обратна връзка подобрява точността и надеждността на AI системата с течение на времето.

Според Андрулис, тези инструменти са привлекли партньори като PwC, Deloitte, Capgemini и Supra, които работят с крайни клиенти за внедряване на технологията на Aleph Alpha. Тези партньорства демонстрират стойността и практичността на решенията на Aleph Alpha в реални приложения.

Факторът хардуер

Софтуерът и данните не са единствените предизвикателства пред приемащите суверенния AI. Хардуерът е друг критичен фактор.

Различните предприятия и нации могат да имат специфични изисквания за работа на хардуер, разработен на местно ниво, или просто да диктуват къде могат да се изпълняват работните натоварвания. Тези ограничения могат значително да повлияят на избора на хардуер и инфраструктура.

Това означава, че Андрулис и неговият екип трябва да поддържат широк спектър от хардуерни опции. Aleph Alpha е привлякла еклектична група от хардуерни партньори, включително AMD, Graphcore и Cerebras.

Миналия месец Aleph Alpha обяви партньорство с AMD за използване на нейните ускорители от серията MI300. Това сътрудничество ще използва усъвършенствания хардуер на AMD за ускоряване на обучението и извличането на заключения от AI.

Андрулис също така подчерта сътрудничеството с Graphcore, придобита от Softbank, и Cerebras, чиито ускорители CS-3 на ниво пластина се използват за обучение на AI модели за германските въоръжени сили. Тези партньорства демонстрират ангажимента на Aleph Alpha да работи с различни доставчици на хардуер, за да отговори на специфичните нужди на своите клиенти.

Въпреки тези сътрудничества, Андрулис настоява, че целта на Aleph Alpha не е да стане управлявана услуга или доставчик на облачни услуги. “Никога няма да станем доставчик на облачни услуги”, заяви той. “Искам моите клиенти да бъдат свободни и без да бъдат заключени.” Този ангажимент към свободата и гъвкавостта на клиентите отличава Aleph Alpha от много други AI компании.

Пътят напред: Нарастваща сложност

Гледайки напред, Андрулис очаква, че изграждането на AI приложения ще стане по-сложно, тъй като индустрията се измества от чатботове към агентни AI системи, способни на по-сложно решаване на проблеми.

Агентният AI придоби значително внимание през последната година, като строителите на модели, разработчиците на софтуер и доставчиците на хардуер обещават системи, които могат да завършат многостъпкови процеси асинхронно. Ранните примери включват Operator на OpenAI и API за използване на компютър на Anthropic. Тези агентни AI системи представляват значителен напредък във възможностите на AI.

“Миналата година се фокусирахме предимно върху прости задачи като обобщаване на документи или помощ при писане”, каза той. “Сега става по-вълнуващо с неща, които на пръв поглед дори не изглеждат като genAI проблеми, където потребителското изживяване не е чатбот.” Тази промяна към по-сложни и интегрирани AI приложения представлява нови предизвикателства и възможности за индустрията.

Ключови предизвикателства при изграждането на корпоративни AI приложения

  • Преодоляване на пропастта между обучението на модели и интеграцията на приложения: Ефективното превръщане на възможностите на LLM в практически приложения остава значителна пречка.
  • Преодоляване на ограниченията на финото настройване: Само финото настройване често е недостатъчно за преподаване на AI модели на нова информация или адаптирането им към специфични задачи.
  • Гарантиране на качеството и достъпността на данните: RAG разчита на добре документирани и лесно достъпни данни, които често липсват в много организации.
  • Обработка на данни извън разпределението: AI моделите трябва да могат да обработват данни, които се различават от данните, върху които са обучени, което изисква специализирани техники.
  • Справяне с хардуерните ограничения: Различните предприятия и нации имат различни хардуерни изисквания, които трябва да бъдат взети предвид.
  • Поддържане на поверителността и сигурността на данните: Суверенният AI изисква гарантиране, че данните се обработват и съхраняват сигурно в границите на дадена нация.
  • Разработване на агентни AI системи: Изграждането на AI приложения, които могат да изпълняват сложни многостъпкови процеси асинхронно, е предизвикателна, но обещаваща област на изследване.

Ключови възможности при изграждането на корпоративни AI приложения

  • Разработване на иновативни AI решения: Предизвикателствата при изграждането на корпоративни AI приложения създават възможности за разработване на иновативни решения, които да отговорят на специфични нужди.
  • Използване на технологии с отворен код: Технологиите с отворен код могат да помогнат за намаляване на разходите и ускоряване на разработването на AI приложения.
  • Сътрудничество с хардуерни партньори: Сътрудничеството с хардуерни партньори може да помогне да се гарантира, че AI приложенията са оптимизирани за специфични хардуерни платформи.
  • Изграждане на суверенни AI възможности: Суверенният AI може да предостави на нациите и организациите по-голям контрол върху техните данни и AI инфраструктура.
  • Трансформиране на индустриите с AI: AI има потенциала да трансформира индустриите чрез автоматизиране на задачи, подобряване на вземането на решения и създаване на нови продукти и услуги.

Бъдещето на корпоративните AI приложения

Бъдещето на корпоративните AI приложения вероятно ще се характеризира с:

  • Повишена сложност: AI приложенията ще станат по-сложни и интегрирани, изискващи специализиран опит и инструменти.
  • По-голям акцент върху качеството на данните: Качеството на данните ще стане все по-важно, тъй като AI приложенията разчитат на точни и надеждни данни.
  • По-голям акцент върху сигурността и поверителността: Сигурността и поверителността ще бъдат от първостепенно значение, тъй като AI приложенията обработват чувствителни данни.
  • По-широко приемане на агентния AI: Агентните AI системи ще станат по-разпространени, тъй като организациите се стремят да автоматизират сложни задачи.
  • Продължаващи иновации: Областта на AI ще продължи да се развива бързо, което ще доведе до нови пробиви и възможности.

Чрез справяне с предизвикателствата и възприемане на възможностите, организациите могат да използват силата на AI, за да трансформират своите бизнеси и да създадат по-добро бъдеще.