Les entreprises et les fournisseurs de services déploient des applications et des agents d’IA à un rythme record, se concentrant sur la fourniture de…
NeuReality, pionnier dans la réimagination de l’architecture d’inférence d’IA pour répondre aux besoins des modèles et des charges de travail d’IA actuels, a annoncé que son appareil d’inférence NR1 est désormais préchargé avec des modèles d’IA d’entreprise populaires, notamment Llama, Mistral, Qwen, Granite 1, et prend en charge les clouds d’IA générative privés et les clusters on-premise. Cet appareil compatible avec l’IA générative et l’IA agent se lance et fonctionne en moins de 30 minutes, offrant une vitesse de valorisation 3 fois plus rapide, permettant aux clients d’innover plus rapidement. Les preuves de concept (PoC) actuelles montrent qu’il fournit jusqu’à 6,5 fois plus de débit de tokens dans le même budget de coût et de puissance par rapport aux serveurs d’inférence basés sur des CPU x86, permettant aux entreprises et aux gouvernements de toutes tailles d’accéder et d’utiliser l’IA de manière plus abordable.
À l’intérieur de l’appareil, la puce NR1® est le premier véritable AI-CPU construit spécifiquement pour l’orchestration de l’inférence – la gestion des données, des tâches et des intégrations – avec des logiciels, des services et des API intégrés. Non seulement il consolide les architectures CPU et NIC traditionnelles en une seule, mais il emballe également une puissance de traitement 6 fois supérieure dans la puce pour suivre le rythme de l’évolution rapide des GPU, tout en éliminant les goulots d’étranglement traditionnels du CPU.
Associée à n’importe quel GPU ou accélérateur d’IA au sein de son appareil, la puce NR1 offre une efficacité révolutionnaire en termes de coût, d’énergie et d’espace, ce qui est essentiel pour une large adoption de l’IA d’entreprise. Par exemple, en comparant le même modèle Llama 3.3-70B et la même configuration de GPU ou d’accélérateur d’IA, l’appareil basé sur l’AI-CPU de NeuReality atteint un coût total par million de tokens d’IA inférieur à celui des serveurs basés sur des CPU x86.
« Personne ne remet en question l’énorme potentiel de l’IA. Le défi réside dans la manière de rendre économiquement viable le déploiement de l’inférence d’IA, », a déclaré Moshe Tanach, cofondateur et PDG de NeuReality. « La technologie d’AI-CPU révolutionnaire de NeuReality élimine les goulots d’étranglement, ce qui nous permet de fournir les performances supplémentaires nécessaires pour libérer toute la puissance du GPU, tout en orchestrant les requêtes et les tokens d’IA pour maximiser les performances et le retour sur investissement de ces systèmes d’IA coûteux. »
« Nous portons désormais la facilité d’utilisation à un niveau supérieur grâce à notre appareil d’inférence d’IA intégré du silicium au logiciel, », a continué Tanach. « Il est préchargé avec des modèles d’IA et tous les outils pour aider les développeurs de logiciels d’IA à déployer l’IA plus rapidement, plus facilement et à moindre coût qu’auparavant, leur permettant ainsi de transférer des ressources vers l’application de l’IA dans leur entreprise, plutôt que vers l’intégration et l’optimisation de l’infrastructure. »
Une étude récente a révélé qu’environ 70 % des entreprises déclarent utiliser l’IA générative dans au moins une fonction commerciale, ce qui indique une demande accrue. Cependant, seulement 25 % des entreprises ont mis en place des processus entièrement activés par l’IA et ont réalisé une adoption généralisée, et seulement un tiers ont commencé à mettre en œuvre des cas d’utilisation limités de l’IA.
Aujourd’hui, le goulot d’étranglement des performances du CPU sur les serveurs qui gèrent les charges de travail multimodales et de grands modèles linguistiques est un facteur majeur qui contribue à un faible taux d’utilisation moyen du GPU, qui se situe entre 30 et 40 %. Cela entraîne un gaspillage coûteux de silicium dans les déploiements d’IA, ainsi qu’un marché mal desservi qui est toujours confronté à des obstacles de complexité et de coût.
« Les entreprises et les fournisseurs de services déploient des applications et des agents d’IA à un rythme record et se concentrent sur la fourniture de performances de manière rentable », a déclaré Rashid Attar, vice-président principal de l’ingénierie de Qualcomm Technologies, Inc. « En intégrant l’accélérateur Qualcomm Cloud AI 100 Ultra à l’architecture AI-CPU de NeuReality, les utilisateurs peuvent atteindre de nouveaux niveaux de rentabilité et de performances d’IA sans compromettre la facilité de déploiement et de mise à l’échelle. »
L’appareil NR1 de NeuReality a été déployé avec des clients de services cloud et financiers et est spécialement conçu pour accélérer l’adoption de l’IA grâce à son prix abordable, son accessibilité et son efficacité spatiale, tant pour les options d’inférence on-premise que pour les options d’inférence en tant que service dans le cloud. Outre les nouveaux modèles d’IA générative et d’IA agent préchargés, ainsi que de nouvelles versions chaque trimestre, il est également entièrement optimisé pour les kits de développement logiciel et les API préconfigurés pour la vision par ordinateur, l’IA conversationnelle ou les demandes personnalisées prenant en charge divers cas d’utilisation et marchés commerciaux (par exemple, les services financiers, les sciences de la vie, le gouvernement, les fournisseurs de services cloud).
Le premier appareil NR1 unit le module NR1® (carte PCIe) avec l’accélérateur Qualcomm® Cloud AI 100 Ultra.
NeuReality exposera à InnoVEX (co-organisé avec Computex) au pavillon israélien, stand S0912 du hall 2 (près de la scène centrale) à Taipei, Taïwan, du 20 au 23 mai 2025. La société présentera des démonstrations en direct de l’appareil d’inférence NR1, notamment la migration d’une application de chat en quelques minutes et des démonstrations de performances de la puce NR1 exécutant Smooth Factory Models et DeepSeek-R1-Distill-Llama-8B.
Fondée en 2019, NeuReality est un pionnier de l’architecture d’inférence d’IA dédiée alimentée par la puce NR1® – le premier AI-CPU pour l’orchestration de l’inférence. Basé sur une architecture ouverte et basée sur des normes, NR1 est entièrement compatible avec n’importe quel accélérateur d’IA. La mission de NeuReality est de rendre l’IA accessible et universelle en réduisant les obstacles associés aux coûts, à la consommation d’énergie et à la complexité élevés, et en exploitant sa technologie révolutionnaire pour étendre l’adoption de l’inférence d’IA. La société emploie 80 personnes dans ses installations en Israël, en Pologne et aux États-Unis.
Les 1 modèles d’IA préchargés et optimisés pour les clients d’entreprise comprennent : Llama 3.3 70B, Llama 3.1 8B (la série Llama 4 est à venir) ; Mistral 7B, Mistral 8x7B et Mistral Small ; Qwen 2.5, y compris Coder (Qwen 3 est à venir) ; DeepSeek R1**-**Distill-Llama 8B, R1 Distill-Llama 70b ; et Granite 3, 3.1 8B (Granite 3.3 est à venir).
La révolution de l’IA de NeuReality : une fusion de performances, de rentabilité et de facilité d’utilisation
Alors que l’intelligence artificielle (IA) continue de s’infiltrer dans tous les secteurs, les entreprises sont confrontées au défi de déployer des solutions d’inférence d’IA qui soient à la fois économiquement viables et efficaces. NeuReality révolutionne l’économie de l’IA avec son approche innovante, qui met l’accent sur la fourniture d’un accès instantané et prêt à l’emploi aux LLM (grands modèles linguistiques), tout en réduisant considérablement le coût total de l’inférence d’IA. Grâce à l’optimisation de l’architecture d’inférence d’IA et au préchargement de modèles d’IA d’entreprise populaires, le produit phare de NeuReality, l’appareil d’inférence NR1, offre aux entreprises des niveaux de performances, de rentabilité et de facilité d’utilisation sans précédent.
L’appareil d’inférence NR1 : un changeur de jeu
Au cœur de l’appareil d’inférence NR1 se trouve l’AI-CPU spécialement conçue de NeuReality, qui agit comme un centre de contrôle centralisé pour les données, les tâches et les intégrations. Contrairement aux architectures CPU et NIC traditionnelles, la puce NR1 intègre ces composants en une seule unité, réduisant ainsi les goulots d’étranglement et maximisant la puissance de traitement. Cette approche intégrée permet à la puce de suivre le rythme de l’évolution rapide des GPU, tout en optimisant les requêtes et les tokens d’IA pour améliorer les performances et le retour sur investissement.
L’IA prête à l’emploi : simplifier le déploiement
Afin d’améliorer encore la facilité d’utilisation, l’appareil d’inférence NR1 est préchargé avec des modèles d’IA d’entreprise populaires, notamment Llama, Mistral, Qwen et Granite. Cette fonctionnalité élimine la complexité de la configuration et de l’optimisation, permettant aux développeurs de logiciels d’IA de se concentrer sur l’application de l’IA dans leurs activités, plutôt que de passer du temps sur l’intégration de l’infrastructure. L’appareil peut être lancé et fonctionner en moins de 30 minutes, offrant ainsi aux clients une valorisation rapide.
L’IA abordable : accélérer l’adoption
La technologie de NeuReality permet aux entreprises d’accéder et d’utiliser l’IA de manière plus abordable en offrant un coût total par million de tokens d’IA inférieur à celui des serveurs basés sur des CPU x86. Cette rentabilité est essentielle pour les entreprises et les gouvernements de toutes tailles, car elle réduit la barrière au déploiement de l’IA et rend possible une application plus large.
Collaboration avec Qualcomm Technologies : déverrouiller de nouveaux niveaux de performances
Le partenariat stratégique entre NeuReality et Qualcomm Technologies améliore encore les capacités de l’appareil d’inférence NR1. En intégrant l’accélérateur Qualcomm Cloud AI 100 Ultra à l’architecture AI-CPU de NeuReality, les utilisateurs peuvent atteindre de nouveaux niveaux de rentabilité et de performances d’IA sans compromettre la facilité de déploiement et de mise à l’échelle. Cette approche collaborative démontre l’engagement de NeuReality à tirer parti des technologies de pointe pour optimiser les solutions d’inférence d’IA.
Relever les défis de l’IA d’entreprise : améliorer l’utilisation du GPU
NeuReality relève un défi important auquel sont confrontées les entreprises : les goulots d’étranglement des performances du CPU sur les serveurs qui réduisent l’utilisation du GPU. Traditionnellement, les serveurs qui gèrent les charges de travail multimodales et de grands modèles linguistiques ont un taux d’utilisation moyen du GPU aussi bas que 30 à 40 %. Cette faible utilisation entraîne un gaspillage coûteux de silicium dans les déploiements d’IA et limite l’adoption de l’IA sur les marchés mal desservis. La technologie AI-CPU de NeuReality s’attaque à ce problème en éliminant les goulots d’étranglement des performances, permettant ainsi aux entreprises d’utiliser pleinement les capacités de leurs GPU dans les applications d’IA.
Répondre à la demande d’IA générative : utilisation accrue
Les solutions de NeuReality sont bien positionnées pour le marché en croissance rapide de l’IA générative. Des études récentes indiquent qu’environ 70 % des entreprises déclarent utiliser l’IA générative dans au moins une fonction commerciale. Cependant, seulement 25 % des entreprises ont mis en œuvre des processus entièrement activés par l’IA et ont réalisé une adoption généralisée. L’appareil d’inférence NR1 de NeuReality permet aux entreprises d’accélérer leurs initiatives d’IA générative en éliminant les obstacles à l’adoption grâce à une facilité d’utilisation, une rentabilité et des performances accrues.
Facilité d’utilisation : réduire les obstacles au déploiement
Outre les performances et la rentabilité, la facilité d’utilisation est un facteur clé des solutions d’IA de NeuReality. L’appareil d’inférence NR1 est préchargé avec des modèles d’IA et des kits de développement logiciel, ce qui simplifie le processus de déploiement et réduit le besoin d’intégration et d’optimisation de l’infrastructure. Cette facilité d’utilisation permet aux développeurs de logiciels d’IA de se concentrer sur la création et le déploiement d’applications d’IA innovantes, plutôt que de passer du temps sur une infrastructure complexe.
Large éventail d’applications : plusieurs secteurs
L’appareil d’inférence NR1 de NeuReality est conçu pour prendre en charge un large éventail de cas d’utilisation et de marchés commerciaux. L’appareil est optimisé pour la vision par ordinateur, l’IA conversationnelle et les demandes personnalisées grâce à des kits de développement logiciel et des API préconfigurés. Cette polyvalence rend l’appareil d’inférence NR1 adapté à différents secteurs, notamment les services financiers, les sciences de la vie, le gouvernement et les fournisseurs de services cloud.
Accélérer l’adoption de l’IA : prix abordable, accessibilité et efficacité spatiale
L’appareil NR1 de NeuReality favorise l’adoption de l’IA en offrant simultanément un prix abordable et une accessibilité, ce qui le rend adapté aux infrastructures sur site et dans le cloud. De nombreuses organisations ontdu mal à développer leurs initiatives d’IA en raison de leurs coûts et de leur complexité élevés, mais les solutions de NeuReality s’attaquent à ces obstacles en fournissant une plateforme ouverte et rentable qui simplifie le développement et le déploiement de l’IA.
Présentation des points forts
NeuReality présentera son moteur d’inférence NR1 à InnoVEX au Computex Taïwan à Taipei, Taïwan, du 20 au 23 mai 2025, où il mettra en valeur ses capacités. Lors de l’événement, la société présentera la facilité de migration des applications de chat en quelques minutes et démontrera les performances de la puce NR1 exécutant Smooth Factory Models et DeepSeek-R1-Distill-Llama-8B.
Innovation continue : se préparer pour l’avenir
NeuReality s’engage à améliorer les capacités de son appareil d’inférence NR1 en publiant régulièrement de nouveaux modèles d’IA générative et d’IA agent, ainsi que des kits de développement logiciel optimisés. Cette innovation continue permet aux entreprises de se tenir au courant des dernières technologies d’IA et de s’assurer que leur infrastructure d’IA est optimisée pour les charges de travail futures.
NeuReality : permettre aux entreprises de maîtriser le potentiel de l’IA
La technologie d’AI-CPU révolutionnaire de NeuReality offre un moyen rentable de déployer l’inférence d’IA, maximisant les performances du GPU tout en optimisant les requêtes d’IA et les jetons pour un maximum de performances et de retour sur investissement. Alors que NeuReality continue d’innover et d’étendre les capacités de son appareil d’inférence NR1, elle deviendra un allié essentiel pour les entreprises qui cherchent à prospérer dans le monde en pleine croissance de l’IA.
En combinant une attention particulière aux performances, à la rentabilité et à la facilité d’utilisation avec un engagement envers l’innovation continue, NeuReality est en passe de remodeler l’économie de l’IA et de permettre aux entreprises de toutes tailles de maîtriser le potentiel de l’IA.