Bedrijven en serviceproviders implementeren AI-applicaties en -agenten in een recordtempo en richten zich op het leveren van…
NeuReality, een pionier in het heruitvinden van AI-inferentiearchitecturen om te voldoen aan de eisen van de huidige AI-modellen en workloads, kondigt aan dat zijn NR1-inferentieapparaat nu is uitgerust met populaire enterprise AI-modellen, waaronder Llama, Mistral, Qwen, Granite 1, en ondersteuning biedt voor private generative AI clouds en on-premise clusters. Het generative en agent AI-ready apparaat, dat in minder dan 30 minuten klaar is voor gebruik, biedt een 3x snellere time-to-value, waardoor klanten sneller kunnen innoveren. Huidige PoC’s (proof-of-concept) tonen aan dat de tokenoutput tot 6,5x hoger is in dezelfde kosten- en energie-enveloppe in vergelijking met op x86 CPU gebaseerde inferentieservers, waardoor AI toegankelijk en bruikbaar wordt voor bedrijven en overheden van alle groottes op een meer economische manier.
Intern is de NR1®-chip de eerste echte AI-CPU, gebouwd voor inferentie-orkestratie - het beheer van data, taken en integraties - met ingebouwde software, services en API’s. Het consolideert niet alleen traditionele CPU- en NIC-architecturen in één, maar verpakt ook 6x verwerkingskracht op de chip om de snelle vooruitgang van GPU’s bij te houden, terwijl het traditionele CPU-bottlenecks elimineert.
De NR1-chip, gekoppeld aan elke GPU of AI-versneller in het apparaat, levert een doorbraak in kosten-, energie- en vastgoedefficiëntie, wat cruciaal is voor brede enterprise AI-adoptie. Bijvoorbeeld, bij het vergelijken van hetzelfde Llama 3.3-70B model en dezelfde GPU- of AI-versnelleropstelling, bereikt NeuReality’s AI-CPU-aangedreven apparaat lagere totale kosten per miljoen AI-tokens dan een op x86 CPU gebaseerde server.
"Niemand betwist het immense potentieel van AI," zegt Moshe Tanach, medeoprichter en CEO van NeuReality. "De uitdaging ligt in het economisch haalbaar maken van de implementatie van AI-inferentie. NeuReality’s baanbrekende AI-CPU-technologie elimineert bottlenecks, waardoor we de extra prestaties kunnen leveren die nodig zijn om de volledige kracht van GPU’s te ontketenen, terwijl AI-query’s en tokens worden georkestreerd om de prestaties en ROI van deze dure AI-systemen te maximaliseren."
Tanach vervolgt: "Nu tillen we het gebruiksgemak naar een nieuw niveau met een geïntegreerd silicon-to-software AI-inferentieapparaat. Het is voorgeladen met AI-modellen en alle tools om AI-softwareontwikkelaars te helpen AI sneller, gemakkelijker en goedkoper dan ooit tevoren te implementeren, waardoor ze middelen kunnen verschuiven naar het toepassen van AI in hun bedrijf in plaats van infrastructuurintegratie en optimalisatie."
Een recente studie wees uit dat ongeveer 70% van de ondernemingen meldt genereerende AI te gebruiken in ten minste één bedrijfsfunctie, wat duidt op een toegenomen vraag. Slechts 25% van de ondernemingen heeft echter processen die volledig door AI zijn ingeschakeld en de brede adoptie is bereikt, en slechts een derde is begonnen met het implementeren van beperkte AI-use-cases.
Tegenwoordig zijn CPU-prestatieknelpunten die multi-modale en grote taalmodel workloads beheren op servers een belangrijke driver van lage gemiddelde GPU-bezettingsgraden van slechts 30-40%. Dit leidt tot dure siliconverspilling in AI-implementaties en een underserved markt die nog steeds te maken heeft met complexiteits- en kostendrempels.
"Bedrijven en serviceproviders implementeren AI-applicaties en -agenten in een recordtempo en richten zich op het leveren van prestaties op een economische manier," zegt Rashid Attar, senior vice president of Engineering, Qualcomm Technologies, Inc. "Door de Qualcomm Cloud AI 100 Ultra accelerator te integreren met NeuReality’s AI-CPU architectuur, kunnen gebruikers nieuwe niveaus van kostenefficiëntie en AI-prestaties bereiken zonder concessies te doen aan het gemak van implementatie en schaalbaarheid."
De NR1-apparaten van NeuReality, die zijn ingezet bij cloud- en financiële dienstverleningsklanten, zijn speciaal ontworpen om de adoptie van AI te versnellen met hun betaalbaarheid, toegankelijkheid en ruimtelijke efficiëntie voor zowel on-premise als cloud-inferencing-as-a-service-opties. Naast de nieuwe voorgeladen generatieve en agent AI-modellen, met nieuwe releases per kwartaal, is het ook volledig geoptimaliseerd met vooraf geconfigureerde software development kits en API’s voor computer vision, conversationele AI of aangepaste verzoeken die verschillende use-cases en markten bedienen (bijv. financiële dienstverlening, biowetenschappen, overheid, cloud serviceproviders).
Het eerste NR1-apparaat combineert de NR1® module (PCIe kaart) met de Qualcomm® Cloud AI 100 Ultra accelerator.
NeuReality zal exposeren op InnoVEX (mede gevestigd met Computex) in Taipei, Taiwan, van 20-23 mei 2025 in het Israel Pavilion, hal 2, stand S0912 (dicht bij het centrale podium). Het bedrijf zal live demonstraties geven van het NR1-inferentieapparaat, waaronder een chat-applicatiemigratie in enkele minuten en een prestatiedemonstratie van de NR1-chip die Smooth Factory Models en DeepSeek-R1-Distill-Llama-8B uitvoert.
NeuReality, opgericht in 2019, is een pionier in dedicated AI-inferentiearchitecturen, aangedreven door de NR1® chip, de eerste AI-CPU voor inferentie-orkestratie. Gebaseerd op een open, op standaarden gebaseerde architectuur, is NR1 volledig compatibel met elke AI-versneller. De missie van NeuReality is om AI toegankelijk en universeel te maken door de barrières die samenhangen met hoge kosten, stroomverbruik en complexiteit te verlagen, en door de adoptie van AI-inferentie te democratiseren met zijn disruptieve technologie. Het bedrijf heeft 80 medewerkers in faciliteiten in Israël, Polen en de VS.
1 AI-modellen voorgeladen en geoptimaliseerd voor zakelijke klanten omvat: Llama 3.3 70B, Llama 3.1 8B (de Llama 4-serie komt eraan); Mistral 7B, Mistral 8x7B en Mistral Small; Qwen 2.5, inclusief Coder (Qwen 3 komt eraan); DeepSeek R1**-**Distill-Llama 8B, R1 Distill-Llama 70b; en Granite 3, 3.1 8B (Granite 3.3 komt eraan).
De AI-revolutie van NeuReality: een samensmelting van prestaties, kosteneffectiviteit en gebruiksgemak
Naarmate artificial intelligence (AI) steeds meer in verschillende industrieën doordringt, staan bedrijven voor de uitdaging om AI-inferentieoplossingen op een economisch haalbare en efficiënte manier in te zetten. NeuReality ontwricht de AI-economie met zijn innovatieve aanpak die zich richt op het bieden van kant-en-klare, directe toegang tot LLM’s (large language models) en tegelijkertijd de totale kosten van AI-inferentie aanzienlijk verlaagt. Het NR1-inferentieapparaat van NeuReality, het vlaggenschipproduct, stelt bedrijven in staat met ongekende prestaties, kosteneffectiviteit en gebruiksgemak door de AI-inferentiearchitectuur te optimaliseren en populaire enterprise AI-modellen vooraf te laden.
NR1 Inference Appliance: een game changer
De kern van het NR1-inferentieapparaat is de speciaal gebouwde AI-CPU van NeuReality, die fungeert als een gecentraliseerd controlecentrum voor data, taken en integraties. In tegenstelling tot traditionele CPU- en NIC-architecturen integreert de NR1-chip deze componenten in één unit, waardoor knelpunten worden verminderd en de verwerkingskracht wordt gemaximaliseerd. Deze geïntegreerde aanpak stelt de chip in staat om de snelle vooruitgang van GPU’s bij te houden en tevens AI-query’s en tokens te optimaliseren voor verbeterde prestaties en ROI.
Kant-en-klare AI: het vereenvoudigen van de implementatie
Om het gebruiksgemak verder te verbeteren, wordt het NR1-inferentieapparaat geleverd met populaire enterprise AI-modellen, waaronder Llama, Mistral, Qwen en Granite, voorgeladen. Deze functie elimineert de complexiteit van configuratie en optimalisatie, waardoor AI-softwareontwikkelaars zich kunnen concentreren op het toepassen van AI in hun bedrijf in plaats van tijd te besteden aan infrastructuurintegratie. Het apparaat kan in minder dan 30 minuten worden opgestart en is klaar voor gebruik, waardoor klanten een snelle time-to-value krijgen.
Betaalbare AI: het versnellen van adoptie
Met zijn technologie maakt NeuReality AI voor bedrijven toegankelijker en bruikbaarder door betere totale kosten/miljoen AI-tokens te bieden dan op x86 CPU gebaseerde servers. Deze kosteneffectiviteit is cruciaal voor bedrijven en overheden van alle groottes, aangezien het de barrière voor AI-implementatie verlaagt en breder gebruik mogelijk maakt.
Samenwerking met Qualcomm Technologies: het ontsluiten van nieuwe prestatieniveaus
De strategische samenwerking tussen NeuReality en Qualcomm Technologies verbetert de mogelijkheden van het NR1-inferentieapparaat verder. Door de Qualcomm Cloud AI 100 Ultra-versneller te integreren met de AI-CPU-architectuur van NeuReality, kunnen gebruikers nieuwe niveaus van kostenefficiëntie en AI-prestaties bereiken zonder het gemak van implementatie en schaalbaarheid op te offeren. Deze collaboratieve aanpak toont de toewijding van NeuReality aan het benutten van geavanceerde technologieën om AI-inferentieoplossingen te optimaliseren.
Uitdagingen voor zakelijke AI aanpakken: het verhogen van het GPU-gebruik
NeuReality pakt een aanzienlijke uitdaging aan waarmee ondernemingen worden geconfronteerd: CPU-prestatieknelpunten op servers die het GPU-gebruik verminderen. Traditioneel vertoonden servers die multi-modale en grote taalmodelworkloads beheerden, een lage gemiddelde GPU-bezettingsgraad van slechts 30-40%. Deze lage benutting leidt tot dure siliconverspilling in AI-implementaties en beperkt de AI-adoptie voor underserved markten. De AI-CPU-technologie van NeuReality pakt dit probleem aan door knelpunten in de prestaties te elimineren, waardoor bedrijven de volledige capaciteiten van hun GPU’s in AI-toepassingen kunnen benutten.
Tegemoet komen aan de behoeften van generatieve AI: toegenomen bezetting
De oplossingen van NeuReality zijn ideaal gepositioneerd om de snelgroeiende generatieve AI-markt te ondersteunen. Recent onderzoek toont aan dat ongeveer 70% van de bedrijven rapporteert generatieve AI te gebruiken in ten minste één bedrijfsfunctie. Slechts 25% van de bedrijven heeft echter processen die volledig door AI zijn ingeschakeld en massale adoptie heeft bereikt. Het NR1-inferentieapparaat van NeuReality stelt bedrijven in staat om hun generatieve AI-initiatieven te versnellen door barrières voor adoptie weg te nemen door verbeterd gebruiksgemak, kosteneffectiviteit en prestaties.
Gebruiksgemak: drempels bij implementatie verlagen
Naast prestaties en kosteneffectiviteit is gebruiksgemak een belangrijke drijfveer achter de AI-oplossingen van NeuReality. Het NR1-inferentieapparaat wordt geleverd met voorgeladen AI-modellen en software development kits, waardoor het implementatieproces wordt vereenvoudigd en de behoefte aan infrastructuurintegratie en optimalisatie wordt verminderd. Dit gebruiksgemak stelt AI-softwareontwikkelaars in staat om zich te concentreren op het bouwen en implementeren van innovatieve AI-applicaties in plaats van tijd te besteden aan het worstelen met complexe infrastructuur.
Brede toepassingen: meerdere industrieën
Het NR1-inferentieapparaat van NeuReality is ontworpen om een breed scala aan bedrijfsuse-cases en markten te ondersteunen. De unit is geoptimaliseerd met vooraf geconfigureerde software development kits en API’s voor computervision, conversationele AI en aangepaste verzoeken. Deze veelzijdigheid maakt het NR1-inferentieapparaat geschikt voor verschillende industrieën, waaronder financiële diensten, biowetenschappen, de overheid en cloud service providers.
AI-adoptie versnellen: betaalbaarheid, toegankelijkheid en ruimtelijke efficiëntie
De NR1-apparaten van NeuReality vergemakkelijken de AI-adoptie door zowel betaalbaarheid als toegankelijkheid te bieden, waardoor ze geschikt zijn voor on-premise en cloudinfrastructuur. Veel organisaties worstelen met het opschalen van hun AI-initiatieven vanwege de hoge kosten en complexiteit ervan, maar de oplossingen van NeuReality pakken deze barrières aan door een kosteneffectief platform met open standaarden te bieden dat de ontwikkeling en implementatie van AI vereenvoudigt.
Demonstratie Highlights
NeuReality zal zijn NR1-inferentie-engine demonstreren op InnoVEX, onderdeel van Computex, in Taipei, Taiwan van 20-23 mei 2025, om zijn mogelijkheden te laten zien. Tijdens het evenement zal het bedrijf een eenvoudige migratie van een chatapplicatie in enkele minuten demonstreren en de prestaties van de NR1-chip in Smooth Factory Models en DeepSeek-R1-Distill-Llama-8B presenteren.
Continue innovatie: voorbereid op de toekomst
NeuReality is toegewijd aan het verbeteren van de mogelijkheden van zijn NR1-inferentieapparaat door regelmatig nieuwe generatieve AI-modellen en agenten uit te brengen, evenals de geoptimaliseerde software development kit (SDK). Dit continue innovatieprogramma stelt bedrijven in staat om op de hoogte te blijven van de meeste AI-technologie en ervoor te zorgen dat hun AI-infrastructuur is geoptimaliseerd voor toekomstige workloads.
NeuReality: bedrijven in staat stellen het potentieel van AI te benutten
De baanbrekende AI-CPU-technologie van NeuReality biedt kosteneffectieve manieren om inferentie AI-implementaties uit te voeren en GPU-prestaties te maximaliseren, terwijl AI-query’s en tokens worden geoptimaliseerd voor maximale prestaties en rendement. Terwijl NeuReality blijft innoveren en de capaciteiten van het NR1-inferentieapparaat blijft uitbreiden, wordt het een belangrijke partner voor bedrijven om te floreren in de florerende AI-wereld.
Door een focus op prestaties, kosteneffectiviteit en gebruiksgemak te combineren met een toewijding aan continue innovatie, is NeuReality gepositioneerd om de AI-economie te herdefiniëren en het potentieel van AI toegankelijk te maken voor bedrijven van alle groottes.