IA Empresarial: El Reto Real

El Verdadero Desafío: Construyendo Aplicaciones de IA Empresarial

Si bien cada año se invierten innumerables recursos en el entrenamiento de Modelos de Lenguaje Grandes (LLM), persiste un obstáculo importante: integrar eficazmente estos modelos en aplicaciones prácticas y útiles.

La Ilusión del Ajuste Fino

El ajuste fino (fine-tuning) y la Generación Aumentada por Recuperación (RAG) generalmente se consideran métodos bien establecidos para mejorar el conocimiento y las capacidades de los modelos de IA pre-entrenados. Sin embargo, el CEO de Aleph Alpha, Jonas Andrulis, señala que la realidad es más compleja.

“Hace un año, existía la creencia generalizada de que el ajuste fino era una solución mágica. Si un sistema de IA no funcionaba como se deseaba, la respuesta era simplemente el ajuste fino. No es tan simple”, explicó.

Si bien el ajuste fino puede modificar el estilo o el comportamiento de un modelo, no es el enfoque más eficaz para enseñar nueva información. La expectativa de que el ajuste fino por sí solo pueda resolver todos los problemas de la aplicación de IA es una idea errónea.

RAG: Un Enfoque Alternativo

RAG ofrece una alternativa al funcionar como un bibliotecario que recupera información de un archivo externo. Este enfoque permite actualizaciones y cambios en la información dentro de la base de datos sin volver a entrenar o ajustar el modelo. Además, los resultados generados pueden citarse y auditarse para verificar su precisión.

“El conocimiento específico siempre debe documentarse y no almacenarse dentro de los parámetros del LLM”, enfatizó Andrulis.

Si bien RAG ofrece numerosos beneficios, su éxito depende de la documentación adecuada de los procesos, procedimientos y conocimientos institucionales clave en un formato que el modelo pueda entender. Desafortunadamente, este no suele ser el caso.

Incluso cuando existe documentación, las empresas pueden encontrar problemas si los documentos o procesos se basan en datos fuera de la distribución, datos que difieren significativamente de los datos utilizados para entrenar el modelo base. Por ejemplo, un modelo entrenado únicamente con conjuntos de datos en inglés tendrá dificultades con la documentación en alemán, especialmente si contiene fórmulas científicas. En muchos casos, el modelo puede ser incapaz de interpretar los datos en absoluto.

Por lo tanto, Andrulis sugiere que normalmente es necesaria una combinación de ajuste fino y RAG para lograr resultados significativos. Este enfoque híbrido aprovecha las fortalezas de ambos métodos para superar sus limitaciones individuales.

Cerrando la Brecha

Aleph Alpha tiene como objetivo distinguirse como un DeepMind europeo abordando los desafíos que impiden que las empresas y las naciones desarrollen sus propias IA soberanas.

La IA soberana se refiere a los modelos entrenados o ajustados utilizando los conjuntos de datos internos de una nación en hardware construido o implementado dentro de sus fronteras. Este enfoque garantiza la privacidad, la seguridad y el control de los datos, que son cruciales para muchas organizaciones y gobiernos.

“Nos esforzamos por ser el sistema operativo, la base para que las empresas y los gobiernos construyan su propia estrategia de IA soberana”, afirmó Andrulis. “Nuestro objetivo es innovar donde sea necesario, al tiempo que aprovechamos el código abierto y las tecnologías de vanguardia siempre que sea posible”.

Si bien esto ocasionalmente implica el entrenamiento de modelos, como el Pharia-1-LLM de Aleph, Andrulis enfatiza que no están tratando de replicar modelos existentes como Llama o DeepSeek. Su enfoque está en la creación de soluciones únicas que aborden desafíos específicos.

“Siempre dirijo nuestra investigación para que se centre en cosas significativamente diferentes, no solo en copiar lo que todos los demás están haciendo, porque eso ya existe”, dijo Andrulis. “No necesitamos construir otro Llama o DeepSeek porque ya existen”.

En cambio, Aleph Alpha se concentra en la construcción de marcos que simplifiquen y agilicen la adopción de estas tecnologías. Un ejemplo reciente es su nueva arquitectura de entrenamiento sin tokenizador, o “T-Free”, que tiene como objetivo ajustar los modelos que pueden entender los datos fuera de la distribución de manera más eficiente.

Los enfoques tradicionales basados en tokenizadores a menudo requieren grandes cantidades de datos fuera de la distribución para ajustar eficazmente un modelo. Esto es computacionalmente costoso y asume que hay suficientes datos disponibles.

La arquitectura T-Free de Aleph Alpha evita este problema eliminando el tokenizador. Las primeras pruebas en su Pharia LLM en el idioma finlandés mostraron una reducción del 70 por ciento en el costo de entrenamiento y la huella de carbono en comparación con los enfoques basados en tokenizadores. Este enfoque innovador hace que el ajuste fino sea más accesible y sostenible.

Aleph Alpha también ha desarrollado herramientas para abordar las lagunas en el conocimiento documentado que pueden conducir a conclusiones inexactas o inútiles.

Por ejemplo, si dos contratos relevantes para una pregunta de cumplimiento se contradicen entre sí, “el sistema puede acercarse al humano y decir: ‘Encontré una discrepancia… ¿puede proporcionar comentarios sobre si este es un conflicto real?’”, explicó Andrulis.

La información recopilada a través de este marco, llamado Pharia Catch, se puede retroalimentar en la base de conocimiento de la aplicación o utilizarse para ajustar modelos más eficaces. Este bucle de retroalimentación mejora la precisión y la fiabilidad del sistema de IA con el tiempo.

Según Andrulis, estas herramientas han atraído a socios como PwC, Deloitte, Capgemini y Supra, que trabajan con los clientes finales para implementar la tecnología de Aleph Alpha. Estas asociaciones demuestran el valor y la practicidad de las soluciones de Aleph Alpha en aplicaciones del mundo real.

El Factor Hardware

El software y los datos no son los únicos desafíos que enfrentan los adoptantes de la IA Soberana. El hardware es otra consideración crítica.

Diferentes empresas y naciones pueden tener requisitos específicos para ejecutarse en hardware desarrollado a nivel nacional o simplemente pueden dictar dónde se pueden ejecutar las cargas de trabajo. Estas limitaciones pueden afectar significativamente la elección del hardware y la infraestructura.

Esto significa que Andrulis y su equipo deben admitir una amplia gama de opciones de hardware. Aleph Alpha ha atraído a un grupo ecléctico de socios de hardware, incluidos AMD, Graphcore y Cerebras.

El mes pasado, Aleph Alpha anunció una asociación con AMD para utilizar sus aceleradores de la serie MI300. Esta colaboración aprovechará el hardware avanzado de AMD para acelerar el entrenamiento y la inferencia de la IA.

Andrulis también destacó las colaboraciones con Graphcore, adquirida por Softbank, y Cerebras, cuyos aceleradores CS-3 a escala de oblea se utilizan para entrenar modelos de IA para las fuerzas armadas alemanas. Estas asociaciones demuestran el compromiso de Aleph Alpha de trabajar con diversos proveedores de hardware para satisfacer las necesidades específicas de sus clientes.

A pesar de estas colaboraciones, Andrulis insiste en que el objetivo de Aleph Alpha no es convertirse en un servicio gestionado o proveedor de nube. “Nunca nos convertiremos en un proveedor de nube”, afirmó. “Quiero que mis clientes sean libres y sin estar encerrados”. Este compromiso con la libertad y la flexibilidad del cliente distingue a Aleph Alpha de muchas otras empresas de IA.

El Camino a Seguir: Aumentando la Complejidad

De cara al futuro, Andrulis anticipa que la construcción de aplicaciones de IA se volverá más compleja a medida que la industria pase de los chatbots a los sistemas de IA agentic capaces de una resolución de problemas más sofisticada.

La IA agentic ha ganado una atención significativa durante el año pasado, con constructores de modelos, desarrolladores de software y proveedores de hardware que prometen sistemas que pueden completar procesos de varios pasos de forma asíncrona. Los primeros ejemplos incluyen el Operador de OpenAI y la API de uso de la computadora de Anthropic. Estos sistemas de IA agentic representan un avance significativo en las capacidades de la IA.

“El año pasado, nos centramos principalmente en tareas sencillas como el resumen de documentos o la asistencia para la escritura”, dijo. “Ahora, se está volviendo más emocionante con cosas que, a primera vista, ni siquiera parecen ser problemas de genAI, donde la experiencia del usuario no es un chatbot”. Este cambio hacia aplicaciones de IA más complejas e integradas presenta nuevos desafíos y oportunidades para la industria.

Desafíos Clave en la Construcción de Aplicaciones de IA Empresarial:

  • Cerrar la brecha entre el entrenamiento del modelo y la integración de la aplicación: Traducir eficazmente las capacidades de los LLM en aplicaciones prácticas sigue siendo un obstáculo importante.
  • Superar las limitaciones del ajuste fino: El ajuste fino por sí solo a menudo es insuficiente para enseñar a los modelos de IA nueva información o adaptarlos a tareas específicas.
  • Garantizar la calidad y la accesibilidad de los datos: RAG se basa en datos bien documentados y fácilmente accesibles, que a menudo faltan en muchas organizaciones.
  • Manejar datos fuera de la distribución: Los modelos de IA deben ser capaces de manejar datos que difieren de los datos con los que fueron entrenados, lo que requiere técnicas especializadas.
  • Abordar las limitaciones de hardware: Diferentes empresas y naciones tienen diferentes requisitos de hardware que deben tenerse en cuenta.
  • Mantener la privacidad y la seguridad de los datos: La IA soberana requiere garantizar que los datos se procesen y almacenen de forma segura dentro de las fronteras de una nación.
  • Desarrollar sistemas de IA agentic: La construcción de aplicaciones de IA que puedan realizar procesos complejos de varios pasos de forma asíncrona es un área de investigación desafiante pero prometedora.

Oportunidades Clave en la Construcción de Aplicaciones de IA Empresarial:

  • Desarrollar soluciones de IA innovadoras: Los desafíos en la construcción de aplicaciones de IA empresarial crean oportunidades para desarrollar soluciones innovadoras que aborden necesidades específicas.
  • Aprovechar las tecnologías de código abierto: Las tecnologías de código abierto pueden ayudar a reducir los costos y acelerar el desarrollo de aplicaciones de IA.
  • Colaborar con socios de hardware: La colaboración con socios de hardware puede ayudar a garantizar que las aplicaciones de IA estén optimizadas para plataformas de hardware específicas.
  • Construir capacidades de IA soberana: La IA soberana puede proporcionar a las naciones y organizaciones un mayor control sobre sus datos e infraestructura de IA.
  • Transformar las industrias con la IA: La IA tiene el potencial de transformar las industrias mediante la automatización de tareas, la mejora de la toma de decisiones y la creación de nuevos productos y servicios.

El Futuro de las Aplicaciones de IA Empresarial:

Es probable que el futuro de las aplicaciones de IA empresarial se caracterice por:

  • Mayor complejidad: Las aplicaciones de IA se volverán más complejas e integradas, lo que requerirá experiencia y herramientas especializadas.
  • Mayor enfoque en la calidad de los datos: La calidad de los datos será cada vez más importante a medida que las aplicaciones de IA se basen en datos precisos y fiables.
  • Más énfasis en la seguridad y la privacidad: La seguridad y la privacidad serán primordiales a medida que las aplicaciones de IA manejen datos confidenciales.
  • Mayor adopción de la IA agentic: Los sistemas de IA agentic se volverán más frecuentes a medida que las organizaciones busquen automatizar tareas complejas.
  • Innovación continua: El campo de la IA seguirá evolucionando rápidamente, lo que conducirá a nuevos avances y oportunidades.

Al abordar los desafíos y aprovechar las oportunidades, las organizaciones pueden aprovechar el poder de la IA para transformar sus negocios y crear un futuro mejor.