Arm e Alibaba: IA Multimodal na Edge

Arm Kleidi: Otimizando a Inferência de IA em CPUs Arm

A rápida evolução da IA está inaugurando uma nova era de modelos multimodais. Estes sistemas sofisticados possuem a capacidade de processar e interpretar informações de uma variedade de fontes, incluindo texto, imagens, áudio, vídeo e até mesmo dados de sensores. No entanto, a implementação destes modelos poderosos em dispositivos edge apresenta obstáculos significativos. As limitações inerentes em termos de potência e capacidade de memória do hardware edge, combinadas com a tarefa complexa de processar simultaneamente diversos tipos de dados, criam um desafio complexo.

O Arm Kleidi foi especificamente projetado para enfrentar esse desafio, fornecendo otimização de desempenho contínua para todas as cargas de trabalho de inferência de IA que são executadas em CPUs Arm. No coração do Kleidi está o KleidiAI, um conjunto simplificado de rotinas Arm open-source altamente eficientes, construídas para acelerar a IA.

O KleidiAI já está integrado nas versões mais recentes de frameworks de IA amplamente utilizados para dispositivos edge. Estes incluem ExecuTorch, Llama.cpp, LiteRT via XNNPACK e MediaPipe. Esta integração generalizada oferece uma vantagem significativa a milhões de desenvolvedores, que agora podem se beneficiar automaticamente das otimizações de desempenho de IA sem qualquer esforço extra.

Parceria com a Alibaba: Modelo Qwen2-VL-2B-Instruct

Um novo marco no avanço da IA multimodal em dispositivos edge foi alcançado através de uma estreita colaboração com o MNN. O MNN é um framework de deep learning leve e open-source, desenvolvido e mantido pela Alibaba. Esta parceria resultou na integração bem-sucedida do KleidiAI, permitindo que as cargas de trabalho de IA multimodal sejam executadas de forma eficiente em dispositivos móveis usando CPUs Arm. A chave para esta conquista é o modelo Qwen2-VL-2B-Instruct de 2B parâmetros da Alibaba, ajustado por instruções. Este modelo foi especificamente projetado para compreensão de imagens, raciocínio de texto para imagem e geração multimodal em vários idiomas, tudo adaptado para as restrições dos dispositivos edge.

Ganhos de Desempenho Mensuráveis

A integração do KleidiAI com o MNN produziu melhorias de desempenho significativas e mensuráveis para o modelo Qwen2-VL-2B-Instruct. Tempos de resposta mais rápidos foram observados em casos de uso multimodais de IA cruciais na edge. Estas melhorias desbloqueiam experiências de utilizador aprimoradas numa variedade de aplicações focadas no cliente da Alibaba. Os exemplos incluem:

  • Chatbots para atendimento ao cliente: Fornecendo respostas mais rápidas e eficientes às perguntas dos clientes.
  • Aplicações de compras eletrónicas: Permitindo a pesquisa de produtos por foto, permitindo que os clientes encontrem rapidamente os itens que procuram simplesmente carregando uma imagem.

A velocidade aprimorada nestas aplicações é um resultado direto de ganhos de desempenho substanciais:

  • Melhoria no Pre-fill: Uma notável melhoria de desempenho de 57% foi alcançada no pre-fill. Isto refere-se à fase crucial em que os modelos de IA lidam com entradas de prompt de múltiplas fontes antes de gerar uma resposta.
  • Melhoria na Decodificação: Uma melhoria de desempenho significativa de 28% foi observada na decodificação. Este é o processo em que o modelo de IA gera texto após processar um prompt.

Além da velocidade, a integração do KleidiAI também contribui para um processamento mais eficiente das cargas de trabalho de IA na edge. Isto é conseguido através da redução do custo computacional geral associado às cargas de trabalho multimodais. Estes ganhos de desempenho e eficiência estão prontamente acessíveis a milhões de desenvolvedores. Qualquer desenvolvedor que execute aplicações e cargas de trabalho no framework MNN, bem como em outros frameworks de IA populares para dispositivos edge onde o KleidiAI está integrado, pode beneficiar imediatamente.

Demonstração no Mundo Real: Apresentação no MWC

As capacidades práticas do modelo Qwen2-VL-2B-Instruct, impulsionado pela nova integração do KleidiAI com o MNN, foram apresentadas no Mobile World Congress (MWC). Uma demonstração no stand da Arm destacou a capacidade do modelo de compreender diversas combinações de entradas visuais e textuais. O modelo respondeu então com um resumo conciso do conteúdo da imagem. Todo este processo foi executado na CPU Arm de smartphones, demonstrando a potência e a eficiência da solução. Estes smartphones foram construídos com base no system-on-chip (SoC) móvel Dimensity 9400 da MediaTek, com tecnologia Arm, incluindo a série vivo X200.

Um Passo Significativo na Experiência do Utilizador

A integração do KleidiAI da Arm com o framework MNN para o modelo Qwen2-VL-2B-Instruct da Alibaba representa um salto substancial na experiência do utilizador para cargas de trabalho de IA multimodal. Este avanço oferece estas experiências aprimoradas diretamente na edge, tudo alimentado pela CPU Arm. Estas capacidades estão prontamente disponíveis em dispositivos móveis, com aplicações líderes voltadas para o cliente já a aproveitar os benefícios do KleidiAI.

O Futuro da IA Multimodal em Dispositivos Edge

Olhando para o futuro, as otimizações contínuas do KleidiAI para cargas de trabalho de IA continuarão a capacitar milhões de desenvolvedores. Eles serão capazes de criar experiências multimodais cada vez mais sofisticadas em dispositivos edge. Esta inovação contínua abrirá caminho para a próxima onda de computação inteligente, marcando um passo significativo na evolução contínua da IA.

Citações da Liderança da Alibaba

‘Estamos satisfeitos em ver a colaboração entre o modelo de linguagem grande Qwen da Alibaba Cloud, o Arm KleidiAI e o MNN. A integração do framework de inferência no dispositivo do MNN com o Arm KleidiAI melhorou significativamente a latência e a eficiência energética do Qwen. Esta parceria valida o potencial dos LLMs em dispositivos móveis e melhora a experiência do utilizador de IA. Esperamos continuar os esforços para avançar a computação de IA no dispositivo.’ - Dong Xu, GM do Tongyi Large Model Business, Alibaba Cloud.

‘A integração técnica entre o framework de inferência MNN e o Arm KleidiAI marca um grande avanço na aceleração no dispositivo. Com a otimização conjunta da arquitetura, melhorámos muito a eficiência da inferência no dispositivo do Tongyi LLM, preenchendo a lacuna entre o poder de computação móvel limitado e as capacidades avançadas de IA. Esta conquista destaca a nossa experiência técnica e colaboração entre indústrias. Esperamos continuar esta parceria para melhorar o ecossistema de computação no dispositivo, proporcionando experiências de IA mais suaves e eficientes em dispositivos móveis.’ - Xiaotang Jiang, Chefe do MNN, Taobao and Tmall Group, Alibaba.

Aprofundando os Aspectos Técnicos

Para apreciar plenamente o significado desta colaboração, é útil examinar alguns dos detalhes técnicos subjacentes.

O Papel do MNN

A filosofia de design do MNN centra-se na eficiência e portabilidade. Ele consegue isso através de várias características principais:

  • Arquitetura Leve: O MNN foi projetado para ter uma pegada pequena, minimizando os requisitos de armazenamento e memória em dispositivos edge.
  • Operações Otimizadas: O framework incorpora operações matemáticas altamente otimizadas, especificamente adaptadas para CPUs Arm, maximizando o desempenho.
  • Compatibilidade Multiplataforma: O MNN suporta uma ampla gama de sistemas operativos e plataformas de hardware, tornando-o uma escolha versátil para os desenvolvedores.

A Contribuição do KleidiAI

O KleidiAI complementa os pontos fortes do MNN, fornecendo um conjunto de rotinas especializadas que aceleram ainda mais a inferência de IA. Estas rotinas aproveitam a vasta experiência da Arm em arquitetura de CPU para desbloquear ganhos de desempenho que seriam difíceis de alcançar de outra forma. Os principais aspetos da contribuição do KleidiAI incluem:

  • Kernels Altamente Otimizados: O KleidiAI fornece kernels altamente otimizados para operações comuns de IA, como multiplicação de matrizes e convolução. Estes kernels são meticulosamente ajustados para tirar partido das características específicas das CPUs Arm.
  • Integração Automática: A integração perfeita do KleidiAI em frameworks de IA populares significa que os desenvolvedores não precisam incorporar manualmente estas otimizações. Os benefícios de desempenho são aplicados automaticamente, simplificando o processo de desenvolvimento.
  • Melhoria Contínua: A Arm está comprometida em atualizar e melhorar continuamente o KleidiAI, garantindo que ele permaneça na vanguarda da tecnologia de aceleração de IA.

Qwen2-VL-2B-Instruct: Um Poderoso Modelo Multimodal

O modelo Qwen2-VL-2B-Instruct é um testemunho da experiência da Alibaba em modelos de linguagem grandes e IA multimodal. As suas principais características incluem:

  • Ajuste de Instruções: O modelo é especificamente ajustado para seguir instruções, tornando-o altamente adaptável a uma ampla gama de tarefas.
  • Capacidades Multimodais: Ele destaca-se na compreensão e processamento de informações visuais e textuais, permitindo aplicações como legendagem de imagens e resposta a perguntas visuais.
  • Suporte Multilíngue: O modelo foi projetado para funcionar com vários idiomas, ampliando a sua aplicabilidade em diferentes regiões e bases de utilizadores.
  • Otimizado para Dispositivos Edge: Apesar das suas poderosas capacidades, o modelo é cuidadosamente projetado para operar dentro das restrições de recursos dos dispositivos edge.

Expandindo o Escopo da IA Multimodal

Os avanços aqui discutidos não se limitam a smartphones. Os mesmos princípios e tecnologias podem ser aplicados a uma ampla gama de dispositivos edge, incluindo:

  • Dispositivos Domésticos Inteligentes: Permitindo assistentes de voz, reconhecimento de imagem para câmeras de segurança e outros recursos inteligentes.
  • Dispositivos Vestíveis: Impulsionando a monitorização da saúde, o rastreamento de fitness e aplicações de realidade aumentada.
  • IoT Industrial: Facilitando a manutenção preditiva, o controlo de qualidade e a automação em ambientes de fabricação.
  • Automotivo: Melhorando os sistemas de assistência ao condutor, o entretenimento na cabine e as capacidades de condução autónoma.

As aplicações potenciais da IA multimodal na edge são vastas e continuam a expandir-se. À medida que os modelos se tornam mais sofisticados e o hardware se torna mais poderoso, podemos esperar ver casos de uso ainda mais inovadores e impactantes a surgir. Esta colaboração entre a Arm e a Alibaba é um passo significativo nessa direção, levando o poder da IA multimodal a um público mais amplo e permitindo uma nova geração de dispositivos inteligentes. O foco na eficiência, desempenho e acessibilidade do desenvolvedor garante que estes avanços terão um impacto amplo e duradouro no futuro da tecnologia.