Arm y Alibaba: IA Multimodal Edge

Arm Kleidi: Optimización de la Inferencia de IA en CPUs Arm

La rápida evolución de la IA está marcando el comienzo de una nueva era de modelos multimodales. Estos sofisticados sistemas poseen la capacidad de procesar e interpretar información de una variedad de fuentes, incluyendo texto, imágenes, audio, video e incluso datos de sensores. Sin embargo, la implementación de estos poderosos modelos en dispositivos edge presenta obstáculos significativos. Las limitaciones inherentes en la capacidad de energía y memoria del hardware edge, combinadas con la intrincada tarea de procesar simultáneamente diversos tipos de datos, crean un desafío complejo.

Arm Kleidi está específicamente diseñado para abordar este desafío, proporcionando una optimización del rendimiento sin fisuras para todas las cargas de trabajo de inferencia de IA que se ejecutan en CPUs Arm. En el corazón de Kleidi se encuentra KleidiAI, un conjunto simplificado de rutinas Arm de código abierto altamente eficientes, construidas para acelerar la IA.

KleidiAI ya está integrado en las últimas versiones de los frameworks de IA ampliamente utilizados para dispositivos edge. Estos incluyen ExecuTorch, Llama.cpp, LiteRT a través de XNNPACK y MediaPipe. Esta amplia integración ofrece una ventaja significativa a millones de desarrolladores, que ahora pueden beneficiarse automáticamente de las optimizaciones de rendimiento de la IA sin ningún esfuerzo adicional.

Asociación con Alibaba: Modelo Qwen2-VL-2B-Instruct

Se ha logrado un nuevo hito en el avance de la IA multimodal en dispositivos edge a través de una estrecha colaboración con MNN. MNN es un framework de aprendizaje profundo ligero y de código abierto desarrollado y mantenido por Alibaba. Esta asociación ha resultado en la integración exitosa de KleidiAI, permitiendo que las cargas de trabajo de IA multimodal se ejecuten eficientemente en dispositivos móviles utilizando CPUs Arm. La clave de este logro es el modelo Qwen2-VL-2B-Instruct de 2B parámetros ajustado por instrucciones de Alibaba. Este modelo está específicamente diseñado para la comprensión de imágenes, el razonamiento de texto a imagen y la generación multimodal en múltiples idiomas, todo adaptado a las limitaciones de los dispositivos edge.

Ganancias de Rendimiento Medibles

La integración de KleidiAI con MNN ha producido mejoras de rendimiento significativas y medibles para el modelo Qwen2-VL-2B-Instruct. Se han observado tiempos de respuesta más rápidos en casos de uso multimodales de IA cruciales en el edge. Estas mejoras desbloquean experiencias de usuario mejoradas en una variedad de aplicaciones de Alibaba centradas en el cliente. Los ejemplos incluyen:

  • Chatbots para servicio al cliente: Proporcionando respuestas más rápidas y eficientes a las consultas de los clientes.
  • Aplicaciones de compra electrónica (e-shopping): Permitiendo la búsqueda de productos a partir de fotos, lo que permite a los clientes encontrar rápidamente los artículos que buscan simplemente subiendo una imagen.

La velocidad mejorada en estas aplicaciones es un resultado directo de las ganancias sustanciales de rendimiento:

  • Mejora del Pre-fill: Se ha logrado una notable mejora del rendimiento del 57 por ciento en el pre-fill. Esto se refiere a la etapa crucial donde los modelos de IA manejan las entradas de prompt de múltiples fuentes antes de generar una respuesta.
  • Mejora de la Decodificación: Se ha observado una mejora significativa del rendimiento del 28 por ciento en la decodificación. Este es el proceso donde el modelo de IA genera texto después de procesar un prompt.

Más allá de la velocidad, la integración de KleidiAI también contribuye a un procesamiento más eficiente de las cargas de trabajo de IA en el edge. Esto se logra reduciendo el costo computacional general asociado con las cargas de trabajo multimodales. Estas ganancias de rendimiento y eficiencia son fácilmente accesibles para millones de desarrolladores. Cualquier desarrollador que ejecute aplicaciones y cargas de trabajo en el framework MNN, así como en otros frameworks de IA populares para dispositivos edge donde KleidiAI está integrado, puede beneficiarse inmediatamente.

Demostración en el Mundo Real: Presentación en el MWC

Las capacidades prácticas del modelo Qwen2-VL-2B-Instruct, impulsado por la nueva integración de KleidiAI con MNN, se mostraron en el Mobile World Congress (MWC). Una demostración en el stand de Arm destacó la capacidad del modelo para comprender diversas combinaciones de entradas visuales y textuales. El modelo respondió luego con un resumen conciso del contenido de la imagen. Todo este proceso se ejecutó en la CPU Arm de los teléfonos inteligentes, mostrando la potencia y la eficiencia de la solución. Estos teléfonos inteligentes se construyeron sobre el sistema en chip (SoC) móvil Dimensity 9400 de MediaTek con tecnología Arm, incluida la serie vivo X200.

Un Paso Significativo en la Experiencia del Usuario

La integración de KleidiAI de Arm con el framework MNN para el modelo Qwen2-VL-2B-Instruct de Alibaba representa un salto sustancial en la experiencia del usuario para las cargas de trabajo de IA multimodal. Este avance ofrece estas experiencias mejoradas directamente en el edge, todo impulsado por la CPU Arm. Estas capacidades están disponibles en dispositivos móviles, y las principales aplicaciones orientadas al cliente ya están aprovechando los beneficios de KleidiAI.

El Futuro de la IA Multimodal en Dispositivos Edge

Mirando hacia el futuro, las optimizaciones fluidas de KleidiAI para las cargas de trabajo de IA continuarán empoderando a millones de desarrolladores. Podrán crear experiencias multimodales cada vez más sofisticadas en dispositivos edge. Esta innovación continua allanará el camino para la próxima ola de computación inteligente, marcando un paso significativo en la evolución continua de la IA.

Citas del Liderazgo de Alibaba

‘Nos complace ver la colaboración entre el modelo de lenguaje grande Qwen de Alibaba Cloud, Arm KleidiAI y MNN. La integración del framework de inferencia en el dispositivo de MNN con Arm KleidiAI ha mejorado significativamente la latencia y la eficiencia energética de Qwen. Esta asociación valida el potencial de los LLM en dispositivos móviles y mejora la experiencia del usuario de IA. Esperamos continuar con los esfuerzos para avanzar en la computación de IA en el dispositivo.’ - Dong Xu, Gerente General de Tongyi Large Model Business, Alibaba Cloud.

‘La integración técnica entre el framework de inferencia MNN y Arm KleidiAI marca un gran avance en la aceleración en el dispositivo. Con la optimización conjunta de la arquitectura, hemos mejorado enormemente la eficiencia de la inferencia en el dispositivo del LLM Tongyi, cerrando la brecha entre la potencia informática móvil limitada y las capacidades avanzadas de IA. Este logro destaca nuestra experiencia técnica y la colaboración entre industrias. Esperamos continuar esta asociación para mejorar el ecosistema de computación en el dispositivo, brindando experiencias de IA más fluidas y eficientes en dispositivos móviles.’ - Xiaotang Jiang, Jefe de MNN, Taobao and Tmall Group, Alibaba.

Profundizando en los Aspectos Técnicos

Para apreciar plenamente la importancia de esta colaboración, es útil examinar algunos de los detalles técnicos subyacentes.

El Papel de MNN

La filosofía de diseño de MNN se centra en la eficiencia y la portabilidad. Lo logra a través de varias características clave:

  • Arquitectura Ligera: MNN está diseñado para tener una huella pequeña, minimizando los requisitos de almacenamiento y memoria en los dispositivos edge.
  • Operaciones Optimizadas: El framework incorpora operaciones matemáticas altamente optimizadas específicamente adaptadas para las CPUs Arm, maximizando el rendimiento.
  • Compatibilidad Multiplataforma: MNN admite una amplia gama de sistemas operativos y plataformas de hardware, lo que lo convierte en una opción versátil para los desarrolladores.

La Contribución de KleidiAI

KleidiAI complementa las fortalezas de MNN al proporcionar un conjunto de rutinas especializadas que aceleran aún más la inferencia de IA. Estas rutinas aprovechan la amplia experiencia de Arm en arquitectura de CPU para desbloquear ganancias de rendimiento que serían difíciles de lograr de otra manera. Los aspectos clave de la contribución de KleidiAI incluyen:

  • Kernels Altamente Optimizados: KleidiAI proporciona kernels altamente optimizados para operaciones comunes de IA, como la multiplicación de matrices y la convolución. Estos kernels están meticulosamente ajustados para aprovechar las características específicas de las CPUs Arm.
  • Integración Automática: La integración perfecta de KleidiAI en frameworks de IA populares significa que los desarrolladores no necesitan incorporar manualmente estas optimizaciones. Los beneficios de rendimiento se aplican automáticamente, simplificando el proceso de desarrollo.
  • Mejora Continua: Arm se compromete a actualizar y mejorar continuamente KleidiAI, asegurando que se mantenga a la vanguardia de la tecnología de aceleración de IA.

Qwen2-VL-2B-Instruct: Un Potente Modelo Multimodal

El modelo Qwen2-VL-2B-Instruct es un testimonio de la experiencia de Alibaba en modelos de lenguaje grandes e IA multimodal. Sus características clave incluyen:

  • Ajuste de Instrucciones: El modelo está específicamente ajustado para seguir instrucciones, lo que lo hace altamente adaptable a una amplia gama de tareas.
  • Capacidades Multimodales: Sobresale en la comprensión y el procesamiento de información tanto visual como textual, lo que permite aplicaciones como el subtitulado de imágenes y la respuesta a preguntas visuales.
  • Soporte Multilingüe: El modelo está diseñado para funcionar con múltiples idiomas, ampliando su aplicabilidad en diferentes regiones y bases de usuarios.
  • Optimizado para Dispositivos Edge: A pesar de sus poderosas capacidades, el modelo está cuidadosamente diseñado para operar dentro de las limitaciones de recursos de los dispositivos edge.

Ampliando el Alcance de la IA Multimodal

Los avances discutidos aquí no se limitan a los teléfonos inteligentes. Los mismos principios y tecnologías se pueden aplicar a una amplia gama de dispositivos edge, incluyendo:

  • Dispositivos Domésticos Inteligentes: Habilitando asistentes de voz, reconocimiento de imágenes para cámaras de seguridad y otras funciones inteligentes.
  • Dispositivos Portátiles (Wearables): Impulsando la monitorización de la salud, el seguimiento del estado físico y las aplicaciones de realidad aumentada.
  • IoT Industrial: Facilitando el mantenimiento predictivo, el control de calidad y la automatización en entornos de fabricación.
  • Automotriz: Mejorando los sistemas de asistencia al conductor, el entretenimiento en la cabina y las capacidades de conducción autónoma.

Las aplicaciones potenciales de la IA multimodal en el edge son vastas y continúan expandiéndose. A medida que los modelos se vuelven más sofisticados y el hardware se vuelve más potente, podemos esperar ver surgir casos de uso aún más innovadores e impactantes. Esta colaboración entre Arm y Alibaba es un paso significativo en esa dirección, llevando el poder de la IA multimodal a una audiencia más amplia y permitiendo una nueva generación de dispositivos inteligentes. El enfoque en la eficiencia, el rendimiento y la accesibilidad para los desarrolladores garantiza que estos avances tendrán un impacto amplio y duradero en el futuro de la tecnología.