DeepSeek: IA para Empresas a Menor Costo

DeepSeek Day Two: Un Cambio Hacia la Adopción de la IA Empresarial

DeepSeek, una startup china de IA en ascenso, está causando sensación con sus modelos fundacionales significativamente descontados. Este movimiento tiene el potencial de revolucionar la adopción de la IA para las empresas al abordar una de las barreras más importantes: el costo.

El Alto Costo de la Adopción de la IA

Según los analistas Brad Sills y Carly Liu de BofA Global Research, el gasto asociado con las aplicaciones de IA es el principal obstáculo que impide su implementación generalizada. Su informe, publicado el martes 28 de enero, sugiere que los avances en la reducción de costos podrían disminuir aún más los precios, lo que llevaría a un aumento de las tasas de adopción.

El anuncio de DeepSeek el lunes 27 de enero, causó conmoción en la industria de la IA, provocando una disminución en las acciones de varias empresas de IA. La compañía reveló su capacidad para entrenar un modelo fundacional por solo $5.58 millones usando 2,048 chips Nvidia H800. Esta cifra contrasta fuertemente con los costos estimados de OpenAI y Anthropic, que oscilan entre $100 millones y mil millones de dólares e implican el uso de miles de chips de IA de Nvidia.

Roy Benesh, CTO de eSIMple, enfatizó el potencial transformador del logro de DeepSeek, afirmando que permite a las empresas más pequeñas, a los desarrolladores individuales e incluso a los investigadores aprovechar el poder de la IA sin incurrir en costos exorbitantes. Esta mayor accesibilidad puede fomentar el desarrollo de ideas y tecnologías innovadoras, lo que lleva a una mayor competitividad en el campo. Como resultado, los clientes pueden beneficiarse de nuevas opciones, mientras que es probable que las empresas de IA establecidas bajen sus precios y aceleren los avances tecnológicos.

Los analistas de BofA proporcionaron ejemplos de los costos asociados con las aplicaciones de IA existentes. Microsoft’s 365 Copilot Chat cobra entre 1 centavo y 30 centavos por indicación, dependiendo de la complejidad de la solicitud. Salesforce’s Agentforce para Service Cloud cobra una tarifa plana de $2 por conversión.

Si bien BofA reconoció que la cifra de $5.58 millones presentada por DeepSeek es algo engañosa debido a la exclusión de los costos relacionados con la investigación, los experimentos, las arquitecturas, los algoritmos y los datos, los analistas enfatizaron la importancia de las innovaciones de la startup al demostrar la viabilidad de métodos de entrenamiento menos costosos.

Pre-entrenamiento vs. Inferencia: Entendiendo los Costos

Los modelos fundacionales de IA, como GPT-4o de OpenAI y Gemini de Google, se someten a un proceso llamado pre-entrenamiento, donde están expuestos a vastas cantidades de datos, como todo Internet, para desarrollar conocimiento general. Sin embargo, para que estos modelos sean más relevantes y útiles para empresas e industrias específicas, las empresas deben capacitarlos o ajustarlos aún más utilizando sus propios datos.

Una vez que el modelo de IA ha sido ajustado, puede procesar las indicaciones del usuario y generar respuestas relevantes. Sin embargo, el proceso de solicitar al modelo y obtener una respuesta incurre en costos de inferencia, que son tarifas asociadas con la participación del modelo con nuevos datos para comprender y analizar.

Es importante tener en cuenta que la mayoría de las empresas no asumen el costo de capacitar a los modelos fundacionales. Esta responsabilidad recae en los desarrolladores de estos modelos, incluidos OpenAI, Google, Meta, Amazon, Microsoft, Anthropic, Cohere, Hugging Face, Mistral AI, Stability AI, xAI, IBM, Nvidia, ciertos laboratorios de investigación y gigantes tecnológicos chinos como Baidu y Alibaba.

Las empresas incurren principalmente en costos de inferencia para procesar las cargas de trabajo de IA, que constituyen la mayor parte de los gastos relacionados con la IA.

La Conexión China: Costos de Inferencia de DeepSeek y Preocupaciones de Privacidad

DeepSeek ofrece sus propios servicios de inferencia a costos significativamente más bajos en comparación con las empresas de Silicon Valley. Sin embargo, hay ciertas consideraciones a tener en cuenta al utilizar estos servicios.

Según la política de privacidad de DeepSeek, la información del usuario se almacena en servidores ubicados en China. La compañía también declara que cumplirá con las obligaciones legales y realizará tareas en interés público o para proteger los intereses vitales de sus usuarios y otras personas.

La ley de inteligencia nacional de China, específicamente el artículo 7, exige que todas las organizaciones y ciudadanos apoyen, ayuden y cooperen con los esfuerzos de inteligencia nacional de acuerdo con la ley y protejan los secretos del trabajo de inteligencia nacional de los que tengan conocimiento.

Kevin Surace, CEO de Appvance, planteó preocupaciones sobre la privacidad, afirmando que la recopilación de datos de los usuarios es una práctica común en China. Aconsejó a los usuarios que tuvieran precaución.

En un experimento realizado por PYMNTS, se le pidió al chatbot de DeepSeek que explicara cómo las protestas de la Plaza de Tiananmen de 1989 han influido en la política china. El chatbot respondió: ‘Lo siento, todavía no estoy seguro de cómo abordar este tipo de pregunta’.

Tim Enneking, CEO de Presearch, señaló que DeepSeek es una empresa 100% de propiedad china ubicada en China. Señaló que la incapacidad del chatbot para proporcionar información sobre la Plaza de Tiananmen o figuras del gobierno chino de alto rango sugiere limitaciones en la objetividad de la tecnología. Si bien Enneking reconoció el emocionante potencial de la tecnología, expresó su preocupación por su control.

Sin embargo, Enneking también destacó la naturaleza de código abierto de los modelos de DeepSeek, lo que permite realizar revisiones para eliminar los controles gubernamentales y corporativos. Cree que la creatividad de ingeniería de la compañía crea oportunidades para que las empresas y los países más pequeños participen y tengan éxito en el panorama de la IA generativa.

El Potencial de DeepSeek para Reducir los Costos de Inferencia para Todos

El enfoque innovador de DeepSeek para entrenar modelos fundacionales a un costo menor tiene implicaciones positivas para empresas como Microsoft, que pueden continuar reduciendo el costo de la computación de IA e impulsar la escala. Según Sills y Liu, los costos de computación más bajos pueden conducir a mejores márgenes en las ofertas habilitadas para IA.

En una nota de investigación separada, los analistas de BofA, Alkesh Shah, Andrew Moss y Brad Sills, sugirieron que los costos de computación de IA más bajos podrían permitir servicios de IA más amplios en varios sectores, desde automóviles hasta teléfonos inteligentes.

Si bien es poco probable que los desarrolladores de modelos fundacionales como OpenAI logren de inmediato costos de entrenamiento tan bajos como los de DeepSeek, los analistas creen que las innovadoras técnicas de entrenamiento y post-entrenamiento de DeepSeek serán adoptadas por los desarrolladores de modelos fronterizos competidores para mejorar las eficiencias. Sin embargo, enfatizan que los modelos actuales aún requerirán una inversión significativa, ya que forman la base de los agentes de IA.

A largo plazo, los analistas anticipan una adopción acelerada de la IA por parte de las empresas a medida que los chatbots, copilotos y agentes se vuelven más inteligentes y económicos, un fenómeno conocido como la paradoja de Jevons.

El CEO de Microsoft, Satya Nadella, se hizo eco de este sentimiento en X, afirmando que la paradoja de Jevons está en juego a medida que la IA se vuelve más eficiente y accesible. Cree que esto conducirá a un aumento en el uso de la IA, transformándola en un producto básico del que no podemos tener suficiente.

Una Inmersión Más Profunda en los Modelos Fundacionales y su Impacto

Los modelos fundacionales, la columna vertebral de la IA moderna, están revolucionando la forma en que las empresas operan e interactúan con la tecnología. Estos modelos, entrenados en vastos conjuntos de datos, poseen la capacidad de realizar una amplia gama de tareas, desde el procesamiento del lenguaje natural hasta el reconocimiento de imágenes. El desarrollo y la implementación de estos modelos, sin embargo, implican una compleja interacción de factores, incluidos los costos de entrenamiento, los costos de inferencia, la privacidad de los datos y las consideraciones éticas.

Entendiendo los Modelos Fundacionales

En esencia, los modelos fundacionales son grandes redes neuronales entrenadas en conjuntos de datos masivos. Este proceso de entrenamiento les permite aprender patrones y relaciones dentro de los datos, lo que les permite realizar una variedad de tareas con notable precisión. Algunos ejemplos de modelos fundacionales incluyen:

  • GPT-4o: Un poderoso modelo de lenguaje desarrollado por OpenAI, capaz de generar texto de calidad humana, traducir idiomas y responder preguntas de manera integral.
  • Gemini de Google: Un modelo de IA multimodal que puede procesar y comprender varios tipos de datos, incluidos texto, imágenes y audio.

Estos modelos no se limitan a tareas específicas, sino que se pueden adaptar a una amplia gama de aplicaciones, lo que los convierte en herramientas versátiles para las empresas.

El Papel del Pre-entrenamiento y el Ajuste Fino

El desarrollo de un modelo fundacional típicamente involucra dos etapas clave: el pre-entrenamiento y el ajuste fino.

  • Pre-entrenamiento: En esta etapa, el modelo se entrena en un conjunto de datos masivo, como todo Internet, para aprender conocimientos generales y habilidades lingüísticas. Este proceso equipa al modelo con la capacidad de comprender y generar texto, traducir idiomas y realizar otras tareas básicas.
  • Ajuste fino: En esta etapa, el modelo pre-entrenado se entrena aún más en un conjunto de datos más pequeño y específico relacionado con una tarea o industria en particular. Este proceso permite que el modelo adapte su conocimiento y habilidades a las necesidades específicas de la aplicación.

Por ejemplo, un modelo de lenguaje pre-entrenado podría ajustarse finamente en un conjunto de datos de interacciones de servicio al cliente para crear un chatbot que pueda responder eficazmente a las consultas de los clientes.

El Costo del Entrenamiento y la Inferencia

Los costos asociados con los modelos fundacionales se pueden dividir en dos categorías principales: los costos de entrenamiento y los costos de inferencia.

  • Costos de entrenamiento: Estos costos involucran los recursos computacionales, los datos y la experiencia requerida para entrenar el modelo fundacional. Entrenar un modelo fundacional grande puede ser extremadamente caro, a menudo requiriendo millones de dólares en inversión.
  • Costos de inferencia: Estos costos involucran los recursos computacionales requeridos para usar el modelo entrenado para hacer predicciones o generar salidas. Los costos de inferencia pueden variar dependiendo del tamaño y la complejidad del modelo, la cantidad de datos que se procesan y la infraestructura que se utiliza.

La innovación de DeepSeek radica en su capacidad para reducir significativamente los costos de entrenamiento asociados con los modelos fundacionales, haciéndolos más accesibles a una gama más amplia de empresas y organizaciones.

Abordando las Preocupaciones de Privacidad y Éticas

El uso de modelos fundacionales plantea importantes preguntas sobre la privacidad de los datos y las consideraciones éticas. Los modelos fundacionales se entrenan en conjuntos de datos masivos, que pueden contener información sensible o personal. Es crucial asegurarse de que estos modelos se utilicen de manera responsable y ética, respetando la privacidad del usuario y evitando el sesgo.

Algunas estrategias para abordar estas preocupaciones incluyen:

  • Anonimización de datos: Eliminar o enmascarar información personal de los datos de entrenamiento para proteger la privacidad del usuario.
  • Detección y mitigación de sesgos: Identificar y abordar los sesgos en los datos de entrenamiento para garantizar que el modelo no perpetúe estereotipos dañinos o prácticas discriminatorias.
  • Transparencia y rendición de cuentas: Proporcionar información clara sobre cómo funciona el modelo y cómo se está utilizando, y establecer mecanismos para la rendición de cuentas en caso de errores o consecuencias no deseadas.

A medida que los modelos fundacionales se vuelven más frecuentes, es esencial abordar estas preocupaciones de privacidad y éticas de manera proactiva para garantizar que se utilicen en beneficio de la sociedad.

El Futuro de los Modelos Fundacionales

Los modelos fundacionales están evolucionando rápidamente, y su impacto potencial en la sociedad es inmenso. En el futuro, podemos esperar ver:

  • Modelos más poderosos y versátiles: A medida que los investigadores continúen desarrollando nuevas arquitecturas y técnicas de entrenamiento, los modelos fundacionales se volverán aún más poderosos y versátiles, capaces de realizar una gama más amplia de tareas con mayor precisión.
  • Mayor accesibilidad: A medida que disminuyen los costos de entrenamiento y las plataformas de IA basadas en la nube se vuelven más frecuentes, los modelos fundacionales se volverán más accesibles para empresas de todos los tamaños.
  • Nuevas aplicaciones y casos de uso: Los modelos fundacionales continuarán aplicándose a nuevos e innovadores casos de uso en diversas industrias, desde la atención médica hasta las finanzas y la educación.

El auge de los modelos fundacionales representa un cambio de paradigma en el campo de la inteligencia artificial. Al comprender sus capacidades, costos y consideraciones éticas, podemos aprovechar su poder para crear un futuro mejor.

La Contribución de DeepSeek a la Democratización de la IA

El logro de DeepSeek al reducir significativamente el costo del entrenamiento de modelos fundacionales marca un momento crucial en la democratización de la IA. Al disminuir la barrera de entrada, DeepSeek está empoderando a una gama más amplia de organizaciones e individuos para participar en la revolución de la IA.

El Impacto en las Empresas Más Pequeñas

Las empresas más pequeñas a menudo carecen de los recursos y la experiencia para desarrollar e implementar sus propios modelos de IA. Los modelos fundacionales rentables de DeepSeek brindan a estas empresas acceso a tecnología de IA de vanguardia que antes estaba fuera de su alcance. Esto puede nivelar el campo de juego, permitiendo que las empresas más pequeñas compitan de manera más efectiva con las empresas más grandes y establecidas.

Por ejemplo, una pequeña empresa de comercio electrónico podría usar los modelos de DeepSeek para personalizar las recomendaciones de productos para sus clientes, mejorar su servicio al cliente o automatizar sus campañas de marketing.

El Empoderamiento de los Desarrolladores Individuales

Los modelos de DeepSeek también empoderan a los desarrolladores e investigadores individuales para explorar nuevas aplicaciones e innovaciones de IA. Con acceso a modelos fundacionales asequibles, los desarrolladores pueden experimentar con diferentes ideas, desarrollar nuevas herramientas impulsadas por IA y contribuir al avance de la tecnología de IA.

Esto puede conducir a un aumento en la innovación, ya que más personas tienen la oportunidad de participar en el desarrollo de la IA.

El Potencial para la Colaboración de Código Abierto

El enfoque de código abierto de DeepSeek promueve aún más la colaboración y la innovación en la comunidad de IA. Al poner sus modelos a disposición del público, DeepSeek anima a los desarrolladores a contribuir a su mejora, identificar y corregir errores y desarrollar nuevas características.

Este enfoque colaborativo puede acelerar el desarrollo de la tecnología de IA y garantizar que se utilice en beneficio de todos.

La Aceleración de la Adopción de la IA

Al reducir el costo de la IA, DeepSeek está acelerando la adopción de la IA en varias industrias. A medida que la IA se vuelve más asequible y accesible, más empresas podrán integrarla en sus operaciones, lo que conducirá a una mayor productividad, eficiencia e innovación.

Esto puede tener un profundo impacto en la economía global, impulsando el crecimiento y creando nuevas oportunidades.

Un Ecosistema de IA Más Inclusivo

Los esfuerzos de DeepSeek para democratizar la IA están contribuyendo a un ecosistema de IA más inclusivo, donde más personas tienen la oportunidad de participar en el desarrollo y el uso de la IA. Esto puede ayudar a garantizar que la IA se utilice de una manera que beneficie a todos los miembros de la sociedad, en lugar de solo a unos pocos selectos.

Al empoderar a las empresas más pequeñas, a los desarrolladores individuales y a los investigadores, DeepSeek está fomentando un panorama de IA más diverso e innovador.