Un equipo dedicado de investigadores ha logrado lo que muchos consideraban inalcanzable: la creación de un modelo de IA entrenado enteramente con datos de origen ético, una sorprendente refutación a las afirmaciones de la industria tecnológica sobre la imposibilidad de tal logro. Este hito trascendental, liderado por expertos de instituciones prestigiosas como MIT, Cornell University y la University of Toronto, presenta un modelo viable y responsable para el futuro del desarrollo de la IA. ¿El ingrediente secreto? Un conjunto de datos meticulosamente curado compuesto únicamente por contenido con licencia abierta o de dominio público.
La Titánica Tarea de la Obtención Ética de Datos
El viaje hacia este oasis ético de la IA estuvo lejos de ser un paseo por el parque. Como los investigadores admiten abiertamente, el verdadero cuello de botella no fue la potencia computacional, sino el mero esfuerzo humano. El proceso de ensamblar el Common Pile v0.1, un conjunto de datos expansivo que excede los ocho terabytes, exigió una limpieza y reformateo manuales minuciosos para hacerlo adecuado para el entrenamiento de la IA. Imagine examinar pilas virtualmente interminables de información digital, buscando cualquier tipo de error que pudiera corromper el conjunto de datos.
Pero el verdadero desafío radicaba en la meticulosa doble verificación del estado de los derechos de autor. En el caótico reino de Internet, la concesión de licencias erróneas rampantes es la norma, convirtiendo la verificación de los derechos de autor en una tarea de Sísifo.
"Esto no es una cosa en la que puedas simplemente escalar los recursos que tienes disponibles", dijo Stella Biderman, coautora del estudio, a WaPo. "Utilizamos herramientas automatizadas, pero todo nuestro material fue anotado manualmente al final del día y revisado por personas. Y eso es realmente difícil".
El proceso de examinar terabytes de datos en busca de problemas de derechos de autor no es fácil. Los investigadores no podían simplemente agregar más chips de computadora al proceso y esperar una solución. En cambio, necesitaban verificar y anotar manualmente todos los datos.
Triunfo Sobre la Adversidad: El Nacimiento de una IA Ética
A pesar de los desalentadores obstáculos, Biderman y su dedicado equipo perseveraron. Una vez que se completó la ardua tarea de crear el Common Pile, liberaron su potencial para entrenar un Modelo de Lenguaje Grande (LLM) de siete mil millones de parámetros. La IA resultante no solo se mantuvo firme frente a los puntos de referencia de la industria como Llama 1 y Llama 2 7B de Meta, sino que también lo hizo con una conciencia ética limpia.
Pero el panorama de la investigación de la IA evoluciona tan rápido como una bala. Es importante recordar que Meta lanzó Llama 1 y Llama 2 hace un par de años, una relativa eternidad en el mundo de la IA.
El hecho de que un equipo esbelto y decidido pudiera lograr resultados comparables con recursos limitados es un testimonio de su ingenio. Un hallazgo particularmente inspirado fue un tesoro escondido de más de 130,000 libros en inglés en la Library of Congress que había sido previamente pasado por alto.
Las Aguas Turbias de la IA y los Derechos de Autor
Los derechos de autor siguen siendo una espinosa cuestión ética y legal en la era de la IA. Gigantes de la industria como OpenAI y Google han acumulado vastos conjuntos de datos devorando todo a la vista, desde artículos de noticias hasta publicaciones personales en redes sociales. Esta práctica ha atraído críticas de todos los lados. Los autores incluso han presentado demandas, alegando el uso ilegal de libros con derechos de autor para entrenar modelos de IA.
La industria tecnológica sostiene que tales prácticas constituyen un uso justo, argumentando que el desarrollo de la IA sería "imposible" sin acceso sin restricciones a los datos. Esta última investigación ofrece una mordaz refutación a esa narrativa de Silicon Valley.
Si bien este logro marca un importante paso adelante, no elimina todas las consideraciones éticas. Los modelos de lenguaje grande, con su potencial para desplazar a los trabajadores humanos, aún plantean preguntas fundamentales sobre el futuro del trabajo. Además, el uso de obras de dominio público puede no sentar bien a todos, particularmente a aquellos cuyas contribuciones creativas ahora están siendo regurgitadas por la IA.
Incluso en un futuro hipotético donde las empresas de IA se ven obligadas a solicitar permiso o proporcionar compensación por el uso de datos, los titulares de los derechos de autor aún pueden enfrentar una presión indebida para permitir el entrenamiento de la IA. Los inmensos recursos que se pueden utilizar al entrenar modelos de IA significan que la mayoría de los titulares de los derechos de autor no podrían resistir la presión de las grandes empresas de IA para permitirles utilizar los datos.
Hacia la Transparencia y la Responsabilidad en la IA
Biderman, sin embargo, sigue siendo pragmática. No se hace ilusiones de que empresas como OpenAI de repente adoptarán la obtención ética de datos. En cambio, espera que su trabajo fomente una mayor transparencia en el uso de datos. ¿Qué conjuntos de datos se utilizaron para entrenar qué productos de IA? Conocer la respuesta a esa pregunta podría tener importantes implicaciones para el futuro de la IA.
"Incluso la transparencia parcial tiene una gran cantidad de valor social y una cantidad moderada de valor científico", dijo a WaPo.
Actualmente, los conjuntos de datos exactos utilizados para entrenar una IA determinada son secretos celosamente guardados. La única forma de replicar un modelo de IA es que se le diga exactamente cómo se creó el modelo de IA actual, o realizar ingeniería inversa al modelo de IA, lo que podría llevar mucho tiempo y esfuerzo.
Un Cambio de Paradigma en el Desarrollo de la IA
Las implicaciones de esta investigación se extienden mucho más allá del ámbito de la ética de la IA. Significa un cambio fundamental en cómo se puede desarrollar la IA, lo que demuestra que las consideraciones éticas y el avance tecnológico no tienen por qué ser mutuamente excluyentes. Al priorizar la transparencia, la obtención responsable de datos y la supervisión humana, podemos forjar un futuro donde la IA sirva a la humanidad, en lugar de al revés.
Abordar las Preocupaciones Éticas y los Impactos Sociales
El argumento de la industria tecnológica de que el uso ético de datos es un obstáculo insuperable ahora ha sido desafiado de manera decisiva. El éxito de este proyecto subraya la viabilidad de construir modelos de IA sobre una sólida base ética. Sin embargo, las dimensiones éticas del desarrollo de la IA se extienden más allá de las cuestiones de derechos de autor. Los impactos socioeconómicos de la IA, incluido el desplazamiento laboral y el sesgo algorítmico, exigen una cuidadosa consideración.
Las consideraciones éticas que afectan a los modelos de IA van más allá de la simple obtención. También debemos verificar que los datos no estén causando que los modelos de IA estén sesgados a favor o en contra de ningún segmento de la población.
Promover la Transparencia y la Responsabilidad
Para fomentar la confianza y garantizar una innovación responsable, la industria de la IA debe adoptar la transparencia y la rendición de cuentas. Las empresas deben ser transparentes sobre las fuentes de datos utilizadas para entrenar sus modelos y las metodologías empleadas para mitigar el sesgo. Las auditorías independientes y la supervisión externa pueden mejorar aún más la rendición de cuentas y evitar lapsos éticos.
La transparencia de la IA se puede implementar para verificar que los conjuntos de datos contengan una distribución lo suficientemente amplia como para evitar sesgos en el modelo de IA. La responsabilidad de la IA se puede implementar mediante auditorías externas para verificar posibles lapsos éticos.
Colaboración y Soluciones de Código Abierto
El desarrollo de IA de origen ético requiere colaboración y soluciones de código abierto. Al compartir conjuntos de datos, metodologías y mejores prácticas, los investigadores y desarrolladores pueden acelerar el progreso y abordar colectivamente los desafíos del desarrollo ético de la IA. Las iniciativas de código abierto también pueden capacitar a organizaciones e individuos más pequeños para participar en la revolución de la IA, asegurando que los beneficios de esta tecnología se compartan de manera más equitativa.
La Promesa de un Futuro Más Brillante
La creación de un modelo de IA entrenado enteramente con datos de origen ético representa un hito en la búsqueda de una IA responsable y beneficiosa. Este logro innovador no solo demuestra que el desarrollo ético de la IA es posible, sino que también proporciona una hoja de ruta para que otros la sigan. Al adoptar la transparencia, la colaboración y el compromiso con los principios éticos, podemos desbloquear todo el potencial de la IA mientras salvaguardamos los valores humanos y promovemos un futuro más justo y equitativo.
El equipo de investigación logró la creación de la IA basada en ética, esta IA con ética ya es posible, los datos proporcionados para hacer funcionar esta IA son de fuentes públicas de dominio público y contenidos open-source, a este proceso para la creación de la IA con fuentes de datos éticas se une las prestigiosas instituciones como el MIT, la Universidad de Cornell y la Universidad de Toronto, esta experiencia da unas bases sólidas para el desarrollo a futuro de la IA.
El gran problema en la creación de esta IA fue la dificultad del proceso para clasificar los datos de fuentes éticas ,esto implica revisión de los derechos de autor para verificar que todo el contenido sea válido, la industria de la tecnología indica que es imposible desarrollar IA con estas características, pero el equipo de investigación demostró que si es posible.
Una vez que la información del Common Pile estuvo completa, se procedió a entrenar el LLM con esta información, dando como resultado una IA que puede competir con Llama 1 y Llama 2 7B de Meta.
Los creadores de la IA con fuentes éticas remarcan que las empresas deben ser transparentes al momento de entrenar una IA, deben mostrar que conjuntos de datos fueron usados, así como sus fuentes, de esta manera dar valor social y valor científico.
La implicación del IA basado en ética demuestra que las consideraciones éticas y el avance tecnológico no tienen por qué ser mutuamente excluyentes, esto indica un nuevo paradigma en la forma en que se puede desarrollar la IA, con este estudio se desafía decisivamente el argumento de la industria tecnológica de que el uso ético de datos es un obstáculo insuperable, así dando como resultado una IA que sirve a la humanidad.
Esto significa que la industria de la IA debe adoptar la transparencia y la rendición de cuentas, de este modo dar confianza y garantizar una innovación responsable,también los desarrolladores e investigadores deben colaborar compartiendo conjuntos de datos de esta manera acelerar el proceso de la creación de IA basada en la ética.