Le aziende e i fornitori di servizi stanno implementando applicazioni e agenti AI a un ritmo record, concentrandosi sulla fornitura di…
NeuReality, pioniere nella reimmaginazione delle architetture di inferenza AI per soddisfare le esigenze dei modelli e dei carichi di lavoro AI odierni, ha annunciato che il suo dispositivo di inferenza NR1 è ora precaricato con modelli AI aziendali popolari, tra cui Llama, Mistral, Qwen, Granite 1 e supporta cloud AI generativi privati e cluster on-premise. Il dispositivo, pronto per l’AI generativa e basata su agenti, si avvia ed è operativo in meno di 30 minuti, offrendo una velocità di realizzazione del valore 3 volte superiore, consentendo ai clienti di innovare più rapidamente. Le attuali prove di concetto (PoC) mostrano un throughput di token fino a 6,5 volte superiore nell’ambito degli stessi costi e potenza rispetto ai server di inferenza basati su CPU x86, consentendo l’accesso e l’utilizzo dell’AI a un prezzo più conveniente per aziende e governi di tutte le dimensioni.
All’interno del dispositivo, il chip NR1® è la prima vera AI-CPU, costruita appositamente per l’orchestrazione dell’inferenza - gestione di dati, attività e integrazioni - con software, servizi e API integrati. Non solo consolida le tradizionali architetture CPU e NIC in una sola, ma racchiude anche una capacità di elaborazione 6 volte superiore direttamente sul chip per tenere il passo dei rapidi progressi delle GPU, eliminando al contempo i tradizionali colli di bottiglia della CPU.
L’abbinamento del chip NR1 con qualsiasi GPU o acceleratore AI all’interno del suo dispositivo offre un’efficienza rivoluzionaria in termini di costi, energia e spazio, essenziale per un’ampia adozione dell’AI aziendale. Ad esempio, confrontando lo stesso modello Llama 3.3-70B e la stessa configurazione di GPU o acceleratore AI, il dispositivo basato su AI-CPU di NeuReality ottiene un costo totale inferiore per milione di token AI rispetto ai server basati su CPU x86.
Moshe Tanach, co-fondatore e CEO di NeuReality, ha dichiarato: “Nessuno contesta l’enorme potenziale dell’AI. La sfida è rendere economicamente fattibile l’implementazione dell’inferenza AI. La tecnologia AI-CPU dirompente di NeuReality elimina i colli di bottiglia, consentendoci di fornire le prestazioni aggiuntive necessarie per liberare tutta la potenza delle GPU, orchestrando al contempo query e token AI per massimizzare le prestazioni e il ritorno sull’investimento di questi costosi sistemi AI”.
Tanach ha continuato: “Ora stiamo portando la facilità d’uso a un livello superiore con il nostro dispositivo di inferenza AI silicio-software integrato. È precaricato con modelli AI e tutti gli strumenti per aiutare gli sviluppatori di software AI a implementare l’AI più velocemente, più facilmente e a un costo inferiore rispetto al passato, consentendo loro di spostare le risorse per applicare l’AI alla propria attività piuttosto che all’integrazione e all’ottimizzazione dell’infrastruttura”.
Un recente studio ha rilevato che circa il 70% delle aziende dichiara di utilizzare l’AI generativa in almeno una funzione aziendale, il che indica un aumento della domanda. Tuttavia, solo il 25% delle aziende dispone di processi completamente abilitati dall’AI e ha raggiunto un’ampia adozione, con solo un terzo delle aziende che ha iniziato a implementare casi d’uso AI limitati.
Oggi, i colli di bottiglia delle prestazioni della CPU sui server che gestiscono carichi di lavoro multimodali e di modelli linguistici di grandi dimensioni sono un fattore importante che contribuisce a un basso utilizzo medio della GPU del 30-40%. Ciò si traduce in uno spreco di silicio costoso nelle implementazioni AI e in un mercato underserved che deve ancora affrontare barriere di complessità e costi.
Rashid Attar, vicepresidente senior dell’ingegneria di Qualcomm Technologies, ha affermato: “Le aziende e i fornitori di servizi stanno implementando applicazioni e agenti AI a un ritmo record e si stanno concentrando sulla fornitura di prestazioni in modo economico. Integrando gli acceleratori Qualcomm Cloud AI 100 Ultra con l’architettura AI-CPU di NeuReality, gli utenti possono ottenere nuovi livelli di efficienza dei costi e prestazioni AI senza compromettere la facilità di implementazione e scalabilità”.
Il dispositivo NR1 di NeuReality è stato distribuito con clienti di cloud e servizi finanziari ed è specificamente progettato per accelerare l’adozione dell’AI attraverso la sua convenienza, accessibilità ed efficienza spaziale, adatto sia per le opzioni di inferenza on-premise che cloud-as-a-service. Oltre ai nuovi modelli AI generativi e basati su agenti precaricati, nonché alle nuove versioni trimestrali, è anche completamente ottimizzato con kit di sviluppo software e API preconfigurati per la visione artificiale, l’AI conversazionale o richieste personalizzate a supporto di una vasta gamma di casi d’uso aziendali e mercati (ad esempio, servizi finanziari, scienze della vita, governo, fornitori di servizi cloud).
Il primo dispositivo NR1 unisce il modulo NR1® (scheda PCIe) con l’acceleratore Qualcomm® Cloud AI 100 Ultra.
NeuReality esporrà all’InnoVEX (che si terrà insieme a Computex) a Taipei, Taiwan, dal 20 al 23 maggio 2025, presso il padiglione israeliano, stand S0912 nel padiglione 2 (vicino al palcoscenico centrale). L’azienda ospiterà dimostrazioni dal vivo del dispositivo di inferenza NR1, tra cui la migrazione di un’applicazione di chat in pochi minuti e una dimostrazione delle prestazioni del chip NR1 che esegue Smooth Factory Models e DeepSeek-R1-Distill-Llama-8B.
Fondata nel 2019, NeuReality è un pioniere dell’architettura di inferenza AI dedicata alimentata dal chip NR1® - la prima AI-CPU creata per l’orchestrazione dell’inferenza. Basato su un’architettura aperta e basata su standard, NR1 è completamente compatibile con qualsiasi acceleratore AI. La missione di NeuReality è rendere l’AI accessibile e universale riducendo le barriere associate a costi elevati, consumo energetico e complessità e sfruttando la propria tecnologia dirompente per ampliare l’adozione dell’inferenza AI. L’azienda impiega 80 persone nelle sue sedi in Israele, Polonia e Stati Uniti.
I modelli AI 1 precaricati e ottimizzati per i clienti aziendali includono: Llama 3.3 70B, Llama 3.1 8B (prossimamente la serie Llama 4); Mistral 7B, Mistral 8x7B e Mistral Small; Qwen 2.5, incluso Coder (prossimamente Qwen 3); DeepSeek R1**-**Distill-Llama 8B, R1 Distill-Llama 70b; e Granite 3, 3.1 8B (prossimamente Granite 3.3).
NR1 Dispositivo di inferenza: una svolta
Al cuore del dispositivo di inferenza NR1 c’è l’AI-CPU appositamente costruita di NeuReality, che funge da hub di controllo centralizzato per dati, attività e integrazioni. A differenza delle tradizionali architetture CPU e NIC, il chip NR1 integra questi componenti in un’unica unità, riducendo i colli di bottiglia e massimizzando la capacità di elaborazione. Questo approccio integrato consente al chip di tenere il passo con i rapidi progressi nelle GPU, orchestrando al contempo query e token AI per prestazioni e ritorno sull’investimento superiori.
AI pronta all’uso: implementazioni semplificate
Per migliorare ulteriormente la facilità d’uso, il dispositivo di inferenza NR1 viene precaricato con modelli AI aziendali popolari, tra cui Llama, Mistral, Qwen e Granite. Questa funzionalità elimina la complessità della configurazione e dell’ottimizzazione, consentendo agli sviluppatori di software AI di concentrarsi sull’applicazione dell’AI al proprio business piuttosto che dedicare tempo all’integrazione dell’infrastruttura. Il dispositivo può essere avviato ed eseguito in meno di 30 minuti, offrendo ai clienti una rapida realizzazione del valore.
AI conveniente: adozione accelerata
La tecnologia di NeuReality rende l’AI più accessibile ed economica per le aziende offrendo un costo totale inferiore per milione di token AI rispetto ai server basati su CPU x86. Questa convenienza è fondamentale per aziende e governi di tutte le dimensioni, poiché riduce le barriere all’implementazione dell’AI e consente un’applicazione più diffusa.
Partnership con Qualcomm Technologies: sblocco di nuovi livelli di prestazioni
La partnership strategica tra NeuReality e Qualcomm Technologies migliora ulteriormente le funzionalità del dispositivo di inferenza NR1. Integrando gli acceleratori Qualcomm Cloud AI 100 Ultra con l’architettura AI-CPU di NeuReality, gli utenti possono ottenere nuovi livelli di efficienza dei costi e prestazioni AI senza compromettere la facilità di implementazione e scalabilità. Questo approccio collaborativo dimostra l’impegno di NeuReality per sfruttare la tecnologia all’avanguardia per ottimizzare le soluzioni di inferenza AI.
Affrontare le sfide dell’AI aziendale: miglioramento dell’utilizzo della GPU
NeuReality sta affrontando una sfida significativa che le aziende devono affrontare: i colli di bottiglia delle prestazioni della CPU sui server che riducono l’utilizzo della GPU. Tradizionalmente, i server che gestiscono carichi di lavoro multimodali e di modelli linguistici di grandi dimensioni sperimentano un utilizzo medio della GPU basso come il 30-40%. Questo basso utilizzo si traduce in uno spreco di silicio costoso nelle implementazioni AI e limita l’adozione dell’AI nei mercati underserved. La tecnologia AI-CPU di NeuReality risolve questo problema eliminando i colli di bottiglia delle prestazioni, consentendo alle aziende di utilizzare appieno la potenza delle proprie GPU nelle applicazioni AI.
Soddisfare le esigenze dell’AI generativa: aumento dell’utilizzo
Le soluzioni di NeuReality sono ben posizionate per servire il mercato in rapida crescita dell’AI generativa. Recenti ricerche indicano che circa il 70% delle aziende ha segnalato l’utilizzo dell’AI generativa in almeno una funzione aziendale. Tuttavia, solo il 25% delle aziende ha processi completamente abilitati dall’AI e ha raggiunto un’ampia adozione. Il dispositivo di inferenza NR1 di NeuReality consente alle aziende di accelerare le proprie iniziative AI generativa rimuovendo le barriere all’adozione attraverso maggiore facilità d’uso, convenienza e prestazioni.
Facilità d’uso: riduzione delle barriere all’implementazione
Oltre alle prestazioni e alla convenienza, la facilità d’uso è un motore chiave per le soluzioni AI di NeuReality. Il dispositivo di inferenza NR1 viene precaricato con modelli AI e kit di sviluppo software, semplificando il processo di implementazione e riducendo la necessità di integrazione e ottimizzazione dell’infrastruttura. Questa facilità d’uso consente agli sviluppatori di software AI di concentrarsi sulla creazione e sull’implementazione di applicazioni AI innovative piuttosto che dedicare tempo alla gestione di infrastrutture complesse.
Ampie applicazioni: settori multipli
Il dispositivo di inferenza NR1 di NeuReality è progettato per supportare un’ampia gamma di casi d’uso aziendali e mercati. Il dispositivo è ottimizzato con kit di sviluppo software e API preconfigurati per la visione artificiale, l’AI conversazionale e richieste personalizzate. Questa versatilità rende il dispositivo di inferenza NR1 adatto a una varietà di settori, tra cui servizi finanziari, scienze della vita, governo e fornitori di servizi cloud.
Accelerazione dell’adozione dell’AI: convenienza, accessibilità ed efficienza spaziale
Il dispositivo NR1 di NeuReality promuove l’adozione dell’AI offrendo convenienza e accessibilità simultanee, che lo rendono adatto sia per l’infrastruttura on-premise che per il cloud. Molte organizzazioni stanno lottando per scalare le proprie iniziative AI a causa dei costi elevati e della complessità dell’AI, ma le soluzioni di NeuReality affrontano questi ostacoli fornendo piattaforme convenienti e open-standard che semplificano lo sviluppo e l’implementazione dell’AI.
Punti salienti della demo
NeuReality presenterà il suo motore di inferenza NR1 alla fiera InnoVEX con Computex a Taipei, Taiwan, che si terrà dal 20 al 23 maggio 2025, mettendo in mostra le sue capacità. Durante evento, la società dimostrerà come sia facile migrare applicazioni di chat in pochi minuti e presenterà le prestazioni del chip NR1 in Smooth Factory Models e DeepSeek-R1-Distill-Llama-8B.
Innovazione continua: preparazione per il futuro
NeuReality si impegna a migliorare le capacità del suo dispositivo di inferenza NR1 rilasciando regolarmente nuovi modelli AI generativi e basati su agenti, nonché kit di sviluppo software ottimizzati. Questa innovazione continua consente alle aziende di rimanere aggiornate sulle ultime tecnologie AI e garantisce che la propria infrastruttura AI sia ottimizzata per carichi di lavoro futuri.
NeuReality: potenziare le aziende a padroneggiare il potenziale dell’AI
La tecnologia AI-CPU innovativa di NeuReality offre un modo conveniente per implementare implementazioni di inferenza AI che massimizzano le prestazioni della GPU, orchestrando al contempo query e token AI per massime prestazioni e ritorno sull’investimento. Man mano che NeuReality continua a innovare e a migliorare le funzionalità del suo dispositivo di inferenza NR1, diventa un alleato centrale per le aziende che prosperano nel fiorente mondo dell’AI.
Combinando la sua attenzione per le prestazioni, la convenienza e la facilità d’uso con un impegno per l’innovazione continua, NeuReality è posizionata per riplasmare l’economia dell’AI e consentire alle aziende di tutte le dimensioni di padroneggiare il potenziale dell’AI.