BLOOM: Un nuevo paradigma de IA basado en innovación abierta

Desde la barra Análisis BLOOM: Un nuevo paradigma de IA basado en innovación...
- Advertisment -

Este post ha sido elaborado por Carlos Muñoz Ferrandis – AI Counsel en Hugging Face y Doctorando en Derecho (Universidad de Alicante)- y Luis Ignacio Vicente del Olmo – CIO en ASTI y Consejero Estratégico en PONS IP -.

En mayo de 2021 nacía BigScience, un proyecto de innovación colaborativa y descentralizada enfocado en el desarrollo y entrenamiento de un modelo grande de procesamiento de lenguaje natural (Large Language Model – “LLM”) llamado BLOOM. Dicho proyecto, que ha contado con el apoyo de instituciones públicas de investigación francesas que facilitaron la infraestructura de supercomputación (GENCI y el cluster Jean Zay), se ha convertido ya en uno de los hitos en la historia de la Inteligencia Artificial (IA). Para más contexto véase aquí.

Algunos analizarán el resultado y se preguntarán: “¿y cuál es la diferencia entre este modelo multilingüe de 176 billones de parámetros y el estado del arte actual?” BLOOM tiene más parámetros que GPT3 de OpenAI y OPT-175 de Meta, y, se ha entrenado con más de 50 idiomas para permitir un enfoque multicultural e inclusivo de este tipo de tecnologías críticas.

“¿Eso es todo?” No. Lo que convierte a  BigScience en un hito en la historia de la IA es que ha sido el primer desarrollo de un LLM en el mundo que se ha llevado a cabo de una manera 100% abierta, transparente y colaborativa. Más de 1100 participantes de 70 nacionalidades distintas son parte del proyecto, de los que un 55% vienen del ámbito académico y 28% de la industria. Y en cuanto al resultado, la serie de modelos BLOOM se compartió en acceso abierto para todos el pasado martes 12 de Julio, después de un año intensivo de investigación. El mismo día MIT, TechCrunch y VentureBeat entre otros ya cubrían la noticia.

BLOOM se concibe como la plataforma de experimentación abierta que permite la democratización de una tecnología crítica, que hasta día de hoy, solo las big tech podían desarrollar y que casi no compartían. Esto, en el seno de la Unión Europea, abre la puerta a una ola de oportunidades y futuros proyectos de investigación inmensa en el campo de la IA.

La historia de BigScience daría para un libro, pero lo que nos ocupa aquí hoy es explorar el concepto de “acceso abierto” de este modelo, bajo un marco contractual y de propiedad intelectual e industrial que facilite su divulgación ¿Cuando se desarrolla un sistema de IA con tal potencial, que consideraciones éticas se han de tener en cuenta a la hora de diseñar la licencia que dictará los términos de acceso y uso del artefacto?

¿Es pertinente adoptar una licencia open source para este tipo de sistemas de IA?

El concepto de “open source” hace referencia a un fenómeno colaborativo de desarrollo de software en el que el resultado se comparte con la comunidad de manera abierta para facilitar el acceso gratuito, utilización y distribución del software. La institucionalización del fenómeno open source conllevó la constitución de instituciones cuyo objetivo es la defensa de los intereses de la propia comunidad, de su gobernanza y mecanismos legales, como lo son las famosas licencias open source. La Open Source Initiative es la entidad encargada de acuñar las licencias open source “oficiales”, como por ejemplo las famosas Apache 2.0 o MIT.

Sin embargo, pese a ser las más utilizadas en el ámbito de la IA, este tipo de licencias no contemplan la dicotomía entre un modelo de IA y el software/código como dos artefactos (y activos) diferentes (independientemente de su interrelación técnica); y por ende no tienen en cuenta el potencial de los modelos de IA, y los riesgos que un acceso abierto sin restricciones pueden conllevar. Definitivamente un reto a gestionar. Elegir una licencia open source permisiva como una Apache o MIT para un sistema de IA de tal calibre como un LLM sería cuanto menos arriesgado, puesto que los potenciales licenciatarios podrían utilizar el modelo de IA para cualquier propósito.

En BigScience se llegó a la conclusión que todos los modelos grandes o pequeños fruto del proyecto se tendrían que licenciar bajo una licencia abierta y de uso responsable (i.e. Responsible AI License – RAIL), y así es como se diseñó la BLOOM RAIL 1.0 (véase artículo aquí y licencia aquí).

¿Qué es una licencia RAIL?

Una licencia RAIL es una licencia que promueve un uso responsable del modelo o sistema de IA al que se está dando acceso. Esto se lleva a cabo mediante el diseño de una serie de restricciones de uso donde el modelo de IA no se puede utilizar, debido al potencial daño que podría causar este último sea por su limitación técnica o por la intención del usuario del modelo.

En el caso de BigScience, se diseñó una licencia RAIL abierta, es decir, una licencia que garantice el acceso gratuito, utilización y distribución del modelo o modelos derivados de este, que aun así tendrá que cumplir siempre con las cláusulas de uso restrictivo del modelo. En otras palabras, un licenciatario de BLOOM podrá modificar el modelo a su gusto y crear una versión comercial, sin embargo, tanto el uso del modelo por parte del licenciatario como el uso de la aplicación comercial por parte de los usuarios de este último tendrán que cumplir con las restricciones de uso del modelo impuestas en la licencia original, la génesis de la utilización responsable del modelo.

La licencia BLOOM RAIL 1.0 se diseñó para generar un efecto viral de la utilización responsable del modelo y sus subsiguientes versiones. Se podría hacer una analogía con la cláusula “copyleft” de la famosa licencia open source GPL, mediante la cual el licenciatario que desarrolle un software basado en el que se ha compartido con la GPL tendrá que licenciar dicho software bajo los mismos términos (i.e., la GPL). Para el caso de BLOOM, los términos de la licencia para la re-distribución, o para la distribución de versiones derivadas, son de libre elección por parte del usuario/licenciatario, sin embargo, valga la redundancia, los nuevos términos de uso y/o licencia siempre tendrán que integrar las cláusulas respectivas a los usos restrictivos de la licencia original.

¿Qué objetivo se persigue?

 

BigScience propone una herramienta esencial para compartir modelos de IA en la comunidad. El ideal sería en un futuro próximo que las licencias RAIL abiertas fuesen para el desarrollo y uso de la IA lo que las licencias open source son para el software. Pero en este caso, el paradigma que se promueve es uno en el que no solo se favorezca un acceso abierto a la tecnología, sino también una utilización responsable de esta. Acceso abierto y uso responsable de la tecnología tienen que ir de la mano.

Este es solo uno de los muchos primeros pasos que BigScience ha dado hacia un nuevo paradigma de desarrollo abierto, responsable, colectivo e inclusivo de IA. Con esta visión, BigScience como tal se podría concebir como un laboratorio de IA abierto y dinámico dónde la experimentación se centra en procesos de gobernanza y desarrollo colaborativo de IA más eficaces, responsables y abiertos.

Con la Inteligencia Artificial estamos, seguramente ante el desarrollo de una de las tecnologías de mayor impacto de la historia que ya está cambiando nuestra forma de trabajar, de desplazarnos o, incluso de relacionarnos. La IA no es buena o mala “per se”. Su impacto dependerá, como en otras tecnologías, del uso que las personas hagamos de ella. En este sentido, la implantación de licencias RAIL abiertas, que promueven un uso responsable de los modelos, contribuirán, sin duda, a un uso más humano, justo y razonable de esta tecnología.

PD: Otro proyecto de interés en el ámbito legal llevado a cabo es el Legal PLaybook for Natural Language Processing Researchers , un proyecto de investigación desarrollado junto con la Universidad de Nueva York para crear un documento de acceso abierto donde se estudian consideraciones legales para el desarrollo de sistema de IA en el contexto del procesamiento de lenguaje natural en 10 jurisdicciones distintas.

Carlos Muñoz Ferrandis
Abogado e investigador doctoral. Ha realizado toda su investigación en el Max Planck Institute for Innovation and Competition (Múnich) en temas de open source y estándares técnicos. Carlos se enfoca en el sector de la Inteligencia Artificial donde trabaja para Hugging Face en temas de estrategia regulatoria y PI. También es miembro del grupo de expertos en IA de la OCDE, institución con la que colabora actualmente, y de la RAIL Initiative, institución que promueve licencias de uso responsable en IA. Carlos se centra actualmente en open source, estándares técnicos, PI, y regulación de IA/datos.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Time limit is exhausted. Please reload CAPTCHA.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

LO ÚLTIMO

Must read

- Advertisement -

Quizá también te gusteRELACIONADOS
Recomendados para ti