Empresas e provedores de serviços estão implementando aplicativos e agentes de AI em velocidades recordes, concentrando-se em fornecer…
A NeuReality, pioneira na reinvenção da arquitetura de inferência de AI para atender às demandas dos modelos e cargas de trabalho de AI de hoje, anunciou que seu dispositivo de inferência NR1 agora vem pré-carregado com modelos de AI empresariais populares, incluindo Llama, Mistral, Qwen, Granite 1, e suporta nuvens de AI generativa privadas e clusters locais. Este dispositivo pronto para AI generativa e de agente é iniciado e executado em menos de 30 minutos, proporcionando uma velocidade de valorização 3 vezes maior, permitindo que os clientes inovem mais rapidamente. PoCs (Provas de Conceito) atuais demonstraram um aumento de até 6,5 vezes na saída de tokens dentro do mesmo orçamento de custo e energia em comparação com servidores de inferência baseados em CPU x86, tornando a AI acessível e utilizável de forma mais acessível para empresas e governos de todos os tamanhos.
Internamente, o chip NR1® é a primeira AI-CPU verdadeira construída especificamente para orquestração de inferência - o gerenciamento de dados, tarefas e integrações - com software, serviços e APIs integrados. Ele não apenas consolida as tradicionais arquiteturas de CPU e NIC em uma, mas também embala 6 vezes o poder de processamento no chip para acompanhar o rápido ritmo da GPU, eliminando, ao mesmo tempo, gargalos tradicionais da CPU.
Quando emparelhado com qualquer GPU ou acelerador de AI dentro de seu dispositivo, o chip NR1 oferece eficiência de custo, energia e espaço inovadora, o que é crucial para a ampla adoção da AI empresarial. Por exemplo, comparando o mesmo modelo Llama 3.3-70B e a mesma configuração de GPU ou acelerador de AI, os dispositivos alimentados por AI-CPU da NeuReality alcançam um custo total por milhão de tokens de AI mais baixo do que os servidores baseados em CPU x86.
"Ninguém questiona o enorme potencial da AI”, disse Moshe Tanach, cofundador e CEO da NeuReality. “O desafio é tornar a implementação da inferência de AI economicamente viável. A tecnologia AI-CPU disruptiva da NeuReality elimina gargalos, permitindo-nos fornecer o desempenho extra necessário para liberar toda a capacidade das GPUs, ao mesmo tempo que orquestramos consultas e tokens de AI para maximizar o desempenho e o ROI desses dispendiosos sistemas de AI.”
Tanach continuou: “Agora estamos levando a facilidade de uso para o próximo nível com um dispositivo de inferência de AI silício-software integrado. Ele vem pré-carregado com modelos de AI e todas as ferramentas para ajudar os desenvolvedores de software de AI a implantar AI mais rápido, fácil e barato do que nunca, permitindo que eles movam recursos para aplicar AI em seus negócios, em vez de integração e otimização de infraestrutura.”
Um estudo recente descobriu que aproximadamente 70% das empresas relatam o uso de AI generativa em pelo menos uma função de negócios, indicando um aumento na demanda. No entanto, apenas 25% das empresas têm processos totalmente habilitados para AI e alcançaram uma adoção generalizada, com apenas um terço embarcando na implementação de casos de uso de AI limitados.
Hoje, gargalos de desempenho da CPU em servidores que gerenciam cargas de trabalho multimodais e grandes modelos de linguagem são os principais fatores que contribuem para taxas médias de utilização de GPU tão baixas quanto 30-40%. Isso leva a custoso desperdício de silício em implantações de AI e a um mercado carente que ainda enfrenta complexidade e barreiras de custo.
“Empresas e provedores de serviços estão implantando aplicativos e agentes de AI em velocidades recordes e estão focados em fornecer desempenho de uma forma economicamente viável”, disse Rashid Attar, vice-presidente sênior de engenharia da Qualcomm Technologies, Inc. “Ao integrar os aceleradores Qualcomm Cloud AI 100 Ultra com a arquitetura AI-CPU da NeuReality, os usuários podem realizar novos níveis de custo-efetividade e desempenho de AI sem comprometer a facilidade de implantação e escala.”
Os dispositivos NR1 da NeuReality foram implantados com clientes de serviços financeiros e em nuvem e foram projetados especificamente para acelerar a adoção de AI por meio de sua economia, acessibilidade e eficiência de espaço para opções de inferência como serviço locais e em nuvem. Além dos novos modelos de AI generativa e de agente pré-carregados e novas versões a cada trimestre, ele também é totalmente otimizado pré-configurado com kits de desenvolvimento de software e APIs para visão computacional, AI conversacional ou solicitações personalizadas que suportam uma variedade de casos de uso e mercados de negócios (por exemplo, serviços financeiros, ciências da vida, governo, provedores de serviços em nuvem).
O primeiro dispositivo NR1 combina o módulo NR1® (placa PCIe) com os aceleradores Qualcomm® Cloud AI 100 Ultra.
A NeuReality exibirá na InnoVEX (co-localizada com a Computex) no Pavilhão de Israel, Estande #S0912 Hall 2 (próximo ao palco central) em Taipei, Taiwan, de 20 a 23 de maio de 2025. A empresa fará demonstrações ao vivo dos dispositivos de inferência NR1, incluindo a migração de um aplicativo de bate-papo em minutos, bem como uma demonstração de desempenho do chip NR1 executando Smooth Factory Models e DeepSeek-R1-Distill-Llama-8B.
Fundada em 2019, a NeuReality é uma pioneira em arquiteturas de inferência de AI construídas especificamente, alimentadas pelo chip NR1® - a primeira AI-CPU para orquestração de inferência. Baseado em uma arquitetura aberta e baseada em padrões, o NR1 é totalmente compatível com qualquer acelerador de AI. A NeuReality está em uma missão para tornar a AI acessível e universal, diminuindo as barreiras associadas a custos, consumo de energia e complexidade proibitivos e aproveitando sua tecnologia disruptiva para expandir a adoção da inferência de AI. A empresa tem 80 funcionários em suas instalações em Israel, Polônia e Estados Unidos.
1 Modelos de AI pré-carregados e otimizados para clientes empresariais incluem: Llama 3.3 70B, Llama 3.1 8B (Série Llama 4 chegando em breve); Mistral 7B, Mistral 8x7B e Mistral Small; Qwen 2.5, incluindo Coder (Qwen 3 chegando em breve); DeepSeek R1**-**Distill-Llama 8B, R1 Distill-Llama 70b; e Granite 3, 3.1 8B (Granite 3.3 chegando em breve).
A Revolução da IA da NeuReality: Uma Convergência de Desempenho, Custo-Benefício e Facilidade de Uso
À medida que a Inteligência Artificial (IA) continua a permear vários setores, as empresas enfrentam desafios na implantação de soluções de inferência de IA que sejam economicamente viáveis e eficientes. A NeuReality está a revolucionar a economia da IA através da sua abordagem inovadora, que se centra na oferta de acesso instantâneo e imediato a LLMs (grandes modelos de linguagem) e, ao mesmo tempo, na redução significativa do custo total de inferência de IA. O dispositivo de inferência NR1, o produto emblemático da NeuReality, oferece às empresas um desempenho, custo-benefício e facilidade de uso sem precedentes, otimizando a arquitetura de inferência de IA e pré-carregando modelos de IA empresariais populares.
Dispositivo de Inferência NR1: Uma Virada de Jogo
No cerne do dispositivo de inferência NR1 está a AI-CPU especificamente construída da NeuReality, que atua como um centro de controlo centralizado para dados, tarefas e integrações. Ao contrário das tradicionais arquiteturas de CPU e NIC, o chip NR1 integra estes componentes numa única unidade, reduzindo os gargalos e maximizando a capacidade de processamento. Esta abordagem integrada permite que o chip acompanhe o ritmo acelerado das GPUs, otimizando as consultas e os tokens de IA para melhorar o desempenho e o retorno do investimento.
IA Imediata: Simplificação da Implementação
Para melhorar ainda mais a facilidade de uso, o dispositivo de inferência NR1 vem pré-carregado com modelos de IA empresariais populares, incluindo Llama, Mistral, Qwen e Granite. Esta funcionalidade elimina a complexidade da configuração e da otimização, permitindo que os desenvolvedores de software de IA se concentrem na aplicação da IA nos seus negócios, em vez de gastarem tempo com a integração de infraestruturas. O dispositivo pode ser iniciado e executado em menos de 30 minutos, proporcionando aos clientes uma rápida realização de valor.
IA Acessível: Aceleração da Adoção
A tecnologia da NeuReality permite que as empresas acedam e utilizem a IA de forma mais económica, oferecendo um custo total mais baixo por milhão de tokens de IA do que os servidores baseados em CPU x86. Este custo-benefício é crucial para empresas e governos de todas as dimensões, pois reduz as barreiras à implementação da IA e permite uma aplicação mais ampla.
Parceria com a Qualcomm Technologies: Desbloqueio de Novos Níveis de Desempenho
A parceria estratégica entre a NeuReality e a Qualcomm Technologies melhora ainda mais as capacidades do dispositivo de inferência NR1. Ao integrar os aceleradores Qualcomm Cloud AI 100 Ultra com a arquitetura AI-CPU da NeuReality, os utilizadores podem alcançar novos níveis de custo-benefício e desempenho de IA sem comprometer a facilidade de implementação e de escala. Esta abordagem colaborativa demonstra o compromisso da NeuReality em aproveitar tecnologias de ponta para otimizar as soluções de inferência de IA.
Abordagem aos Desafios da IA Empresarial: Melhoria da Taxa de Utilização da GPU
A NeuReality está a abordar um desafio significativo que as empresas enfrentam: os gargalos de desempenho da CPU nos servidores, que reduzem a taxa de utilização da GPU. Tradicionalmente, os servidores que gerem cargas de trabalho multimodais e grandes modelos de linguagem têm uma média de taxa de utilização da GPU tão baixa quanto 30-40%. Esta baixa taxa de utilização leva ao desperdício de silício dispendioso nas implementações de IA e limita a adoção da IA em mercados carenciados. A tecnologia AI-CPU da NeuReality resolve este problema, eliminando os gargalos de desempenho, permitindo que as empresas utilizem totalmente as capacidades das suas GPUs em aplicações de IA.
Atendimento à Procura de IA Generativa: Aumento da Taxa de Utilização
As soluções da NeuReality estão bem posicionadas para o mercado de IA generativa em rápido crescimento. Estudos recentes revelaram que cerca de 70% das empresas informam que utilizam IA generativa em pelo menos uma função empresarial. No entanto, apenas 25% das empresas têm processos totalmente ativados por IA e alcançaram uma adoção generalizada. O dispositivo de inferência NR1 da NeuReality permite que as empresas acelerem as suas iniciativas de IA generativa, removendo as barreiras à adoção através da garantia de melhor facilidade de utilização, custo-benefício e desempenho.
Facilidade de Uso: Redução das Barreiras à Implementação
Além do desempenho e do custo-benefício, a facilidade de uso é um fator fundamental para as soluções de IA da NeuReality. O dispositivo de inferência NR1 é pré-carregado com modelos de IA e kits de desenvolvimento de software, o que simplifica o processo de implementação e reduz a necessidade de integração e otimização de infraestruturas. Esta facilidade de uso permite que os desenvolvedores de software de IA se concentrem na construção e na implementação de aplicações de IA inovadoras, em vez de gastarem tempo com infraestruturas intricadas.
Aplicações Amplas: Vários Setores
O dispositivo de inferência NR1 da NeuReality foi concebido para suportar uma grande variedade de casos de uso e mercados empresariais. O dispositivo otimiza a visão computacional, a IA conversacional e as solicitações personalizadas através de kits de desenvolvimento de software e APIs pré-configurados. Esta versatilidade torna o dispositivo de inferência NR1 adequado para uma variedade de setores, incluindo serviços financeiros, ciências da vida, administração pública e prestadores de serviços de nuvem.
Aceleração da Adoção da IA: Acessibilidade Económica, Acessibilidade e Eficiência de Espaço
O dispositivo NR1 da NeuReality promove a adoção da IA, oferecendo simultaneamente acessibilidade económica e acessibilidade, o que o torna adequado para infraestruturas locais e de nuvem. Muitas organizações estão com dificuldades em expandir as suas iniciativas de IA devido aos seus elevados custos e complexidade, mas as soluções da NeuReality abordam estas barreiras através da oferta de uma plataforma de padrões abertos com rentabilidade, simplificando assim o desenvolvimento e a implementação da IA.
Destaques da Demonstração
A NeuReality exibirá o seu motor de inferência NR1 na InnoVEX, na Computex, em Taipé, Taiwan, de 20 a 23 de maio de 2025, mostrando as suas capacidades. No evento, a empresa irá demonstrar a facilidade com que uma aplicação de bate-papo pode ser migrada em apenas alguns minutos e mostrará o desempenho do chip NR1 em Modelos de Fábrica Suave e DeepSeek-R1-Distill-Llama-8B.
Inovação Contínua: Preparação para o Futuro
A NeuReality está comprometida em melhorar as capacidades do seu dispositivo de inferência NR1 através do lançamento regular de novos modelos de IA generativa e de agente, assim como de kits de desenvolvimento de software otimizados. Esta inovação contínua permite que as empresas se mantenham informadas sobre as tecnologias de IA mais recentes e garante que a sua infraestrutura de IA está otimizada para as cargas de trabalho do futuro.
NeuReality: Capacitação das Empresas para Dominar o Potencial da IA
A tecnologia de IA-CPU disruptiva da NeuReality oferece uma forma económica de implementar as implementações de IA de inferência, maximizando o desempenho das GPUs, ao mesmo tempo que otimiza as consultas e os tokens de IA para obter o máximo desempenho e retorno do investimento. À medida que a NeuReality continua a inovar e a expandir as capacidades do seu dispositivo de inferência NR1, torna-se uma aliada fundamental para as empresas que pretendem prosperar no florescente mundo da IA.
Ao combinar um foco no desempenho, no custo-benefício e na facilidade de uso com um compromisso com a inovação contínua, a NeuReality está posicionada para remodelar a economia da IA e capacitar empresas de todas as dimensões para dominar o potencial da IA.