Balada de los loros y el derecho de autor

seretur

Un breve experimento

Los chatbots basados en IA generativas se han popularizado en todos los ámbitos. En el caso de la educación universitaria, y aunque no se cuente con evidencias estadísticas o estudios específicos suficientes, se advierte que hay muches estudiantes que apelan a ChatGPT (o a BARD, en menor medida) para obtener respuestas a temas académicos, fragmentos de código, o informaciones de carácter general.

Dos loros creados con Stable Diffusion a través de Stable Horde

Se sabe (¿se sabe en general?) que estos sistemas “hablan” (no es la palabra precisa, pero cómo decirlo de otro modo) como si supieran acabadamente sobre los temas que se les consulta, pero que en muchas ocasiones “alucinan” (Beutel, Geerits, y Kielstein 2023) (Salvagno, Taccone, y Gerli 2023) ya que están pensados para generar una respuesta “viable”, sintácticamente coherente y contextualmente esperable; pero no para garantizar la exactitud ni la pertinencia de sus afirmaciones ni de las fuentes de las que extraen sus palabras.

“Repiten como loros”, podría decir un docente entrado en años, como cuando se refería a alumnes que recitaban conceptos de memoria sin entender de qué estaban hablando. La metáfora de los loros es bastante pertinente, al punto que Bender y otras se denominaron “loros estocásticos” a estos sistemas, en un paper crítico que alcanzó amplia difusión (Bender et al. 2021) .

Claro que los chatbots basados en estas IA generativas son loros bastante sofisticados, con un vocabulario amplio en varios idiomas, aunque con una clara preferencia por el inglés. Parten de los llamados “Grandes Modelos de Lenguaje”, sistemas basados en aprendizaje profundo (deep learning) con miles de millones de parámetros y entrenados con cantidades gigantes de textos.

Hemos escuchado historias de alumnes que copian sus respuestas de lo que les dicen estos sistemas. Me parece más jugoso, sin embargo, mirar de qué forma los textos generados por los bots pueden servirnos como material educativo.

Algunos antecedentes

La difusión de los chatbots en ámbitos cada vez más variados, así como la competencia entre las gigantescas corporaciones que los sostienen, ha impulsado una producción también creciente de estudios comparativos sobre sus comportamientos.

Desde los primeros tiempos del desarrollo de este tipo de sistemas se verificó que la corrección sintáctica y hasta semántica no implicaba que los textos proferidos fueran reales o confiables.

Por ejemplo Rahsepar y otrxs (Rahsepar et al. 2023) realizaron una serie de preguntas sobre cáncer de pulmón a ChatGPT 3.5, BARD y ChatGPT 4, evaluando el porcentaje de respuestas correctas, parcialmente correctas e incorrectas en cada uno de ellos. El ganador de esa prueba fue ChatGPT 3.5, que respondió correctamente a un 70,8% de las preguntas (y un 17,5% de respuestas erróneas).

Si se quieren usar respuestas de estos bots en contextos académicos o científicos, hay que estar alerta a sus tendencias alucinatorias. Muches investigadores han comprobado que pueden producir afirmaciones seudocientíficas citando fuentes inexistentes, aunque con el tono de autoridad que se espera de un catedrático. Y esto actualmente ocurre tanto en BARD como en ChatGPT. Estudios como el de McGowan y otros (McGowan et al. 2023) ponen en evidencia la capacidad de ambos de inventar referencias científicas, respetando las convenciones de citas de fuentes, pero sobre trabajos que no existen. Diversos trabajos también buscaron comparar el desempeño de los bots basados en IA para resolver situaciones específicas de distintas disciplinas, como química orgánica (Hallal, Hamdan, y Tlais 2023) o medicina (Rahsepar et al. 2023).

En relación con la actividad académica, otro aspecto que se ha abordado recientemente es la del posible desempeño de estas herramientas en exámenes reales de diferentes niveles educativos. Rudolph y otros (Rudolph, Tan, y Tan 2023) les realizaron preguntas “que no pudieran googlearse”, calificando las respuestas de manera similar a la que harían con estudiantes. El desempeño fue bastante mediocre, con resultados algo mejores en ChatGPT 4.

Malinka y otros (Malinka et al. 2023)se preguntaron si una IA está en condiciones de obtener un título de grado (no necesariamente con calificaciones destacadas), sometiendo a ChatGPT a diversos tipos de exámenes típicos de cursos de seguridad informática y bajo diferentes formas de usar el bot (desde copiar y pegar las respuestas de manera directa a usarlas como un asistente). Los autores concluyeron que ChatGPT podía ser usado de manera indebida por estudiantes para resolver exámenes sin que se evaluaran propiamente sus saberes.

El test

Para escribir estas líneas tomamos la idea de algunos de los trabajos mencionados, pensando no tanto en calificarlos como alumnes, sino indagando sobre la utilidad de sus respuestas como material de consulta.

UNSa post apocalíptica (generado con Leonardo AI usando SDXL 0.9)

Para eso le hicimos la misma pregunta a los dos chatbots más famosos a los que se puede acceder gratuitamente con la intención de valorar sus respuestas como fuentes de información y explicación para les estudiantes. La pregunta en cuestión es similar a las que se formulan en exámenes de la asignatura Introducción al Desarrollo de Software Libre, una optativa de la Tecnicatura Universitaria en Programación de la Universidad Nacional de Salta.

La pregunta tiene sentido en un contexto bastante específico: las clases de la materia mencionada, con su desarrollo concreto y sus problemáticas específicas. La formulación en sí se relaciona con los objetivos de la evaluación: queremos observar si el estudiante comprende que el derecho de autor implica potestades que pueden expresarse en el Copyleft. Se busca, además, observar si se establece una diferenciación entre el derecho de autor y el Copyright o la protección que supuestamente brindan las licencias privativas.

Específicamente preguntamos: ¿Puede una obra artística o un software distribuirse bajo una licencia con Copyleft y al mismo tiempo respetar el Copyright?

Los contendientes

Los chatbots elegidos son los que más se utilizan en la actualidad: ChatGPT y BARD.

ChatGPT fue anunciado por la empresa OpenAI en noviembre del año pasado (Wu et al. 2023). El bot se basa en la versión 3.5 del Modelo Grande de Lenguaje (LLM por sus siglas en inglés) GPT y puede consultarse sin costo desde la web de la empresa (https://chat.openai.com/auth/login) o a través de numerosas aplicaciones. Cuatro meses más tarde se publicó ChatGPT 4, que se basa en una nueva edición del GPT aunque no está disponible de manera gratuita en el sitio. Sin embargo, es posible acceder a él a través del buscador BING de Microsoft utilizando el navegador Edge de la misma empresa.

A BARD fue anunciado en julio de este año y se lo puede consultar desde https://chat.openai.com/auth/login con una cuenta de Google

ChatGPT

El bot de OpenAI en su versión 3.5 comienza diciendo que “Sí, es posible que una obra artística o un software se distribuyan bajo una licencia con Copyleft y, al mismo tiempo, respeten el Copyright“. A continuación dice que ambos conceptos “se refieren a diferentes enfoques legales para proteger los derechos de autor” aunque pueden coexistir “se cumplen ciertas condiciones”.

En las líneas siguientes, la aplicación desarrolla los conceptos de Copyright y Copyleft, refiriéndose a esta última como “un enfoque alternativo que se utiliza en licencias de código abierto y algunas licencias de obras artísticas”. El adjetivo “alternativo” sugiere contraposición (viene de “alternancia”) lo que puede inducir al error de separar el Copyleft del Copyright. El término, además, frecuentemente designa lo que no es principal, no es “mainstream” (música alternativa, transporte alternativo).

En cuanto al Copyright, ChatGPT lo considera como el “sistema de derechos de autor tradicional”, lo que refuerza la aparente contraposición entre los términos.

Al final presenta un resumen que pone las cosas en su lugar: “es posible combinar Copyleft y Copyright en una obra si el autor original decide hacerlo y establece las licencias adecuadas para garantizar que sus deseos se respeten en las obras derivadas”. En esa sola oración se expresa que el Copyleft implica el respeto de la voluntad del titular de los derechos de autor.

BARD

El sistema conversador de Google expuso su respuesta en estilo de “pirámide invertida”, poniendo en primer lugar lo más importante y dejando para después el desarrollo más detallado: “La respuesta corta es sí, una obra artística o un software puede distribuirse bajo una licencia con Copyleft y al mismo tiempo respetar el Copyright”.

En el siguiente párrafo se refiere al Copyright como “un derecho de autor” que lo habilita a decidir sobre la reproducción, distribución, creación de obras derivadas, etc., de su obra. A continuación presenta al Copyleft como una estrategia de derecho de autor que “exige a los concesionarios que preserven las mismas libertades” al distribuir copias u obras derivadas.

La especificación del Copyright como “un” derecho alienta a preguntarse qué otros derechos le competen a un autor.

Bard especifica que con la adopción del Copyleft “el autor conserva los derechos morales de la obra, como el derecho a ser reconocido como autor y el derecho a que su obra no sea distorsionada ni mutilada”. Refuerza esta afirmación señalando que “los usuarios de la obra pueden copiarla, distribuirla y crear obras derivadas de ella, pero deben hacerlo bajo la misma licencia que la obra original”.

El loro de Google continúa destacando que “el Copyleft no elimina el Copyright”, puntualizando que el autor conserva los derechos morales y que puede demandar a quien viole tales derechos.

Finalmente, Bard da un listado breve de licencias con Copyleft: GNU FDL, Licencia Arte Libre y Creative Commons Compartir Igual.

La yapa: BING (GPT 4)

Aunque no lo teníamos previsto desde un principio, la posibilidad de acceder gratuitamente a BING (que usa el modelo de ChatGPT 4) en Linux a través del navegador Edge, permitió que repitiéramos la pregunta a una versión más reciente de ChatGPT.

BING comenzó mal: apenas después de saludar, escribió que el Copyleft “es una licencia que se utiliza para otorgar permisos a terceros”, “mientras” que el Copyright es “una forma de protección o registro donde el autor se reserva todos los derechos de explotación de la obra”. En ese solo párrafo se equivocó al considerar que el Copyleft “es una licencia” y contrapuso los dos conceptos (“mientras”), lo que podría conducir a un lector a pensar que son conceptos contrarios. A continuación sostiene que “en general (…) el Copyright se utiliza para proteger los derechos del autor”, lo que implícitamente pone en duda que el Copyleft también lo haga.

La redacción mantiene la imprecisión al decir que “en teoría” es posible respetar el derecho de autor distribuyendo obras bajo Copyleft y que “esto depende de la licencia específica que se utilice y de cómo se aplique”.

Finalmente, el bot en su sabor Microsoft advierte que las leyes de derecho de autor difieren en distintos países y recomienda consultar a un abogado si “necesita asesoramiento legal específico sobre cómo aplicar una licencia Copyleft a su obra”.

Hay un ganador en esta compulsa

Antes que nada, nos parece muy importante enfatizar que esta pequeña prueba no permite ningún tipo de conclusiones definitivas ni generalizables. En tiempos en los se utilizan casos aislados o ejemplos seleccionados para justificar afirmaciones con pretensiones universales, consideramos que es una obligación moral explicitar estas limitaciones.

Los dos chatbots se muestran locuaces ante la pregunta (perdón por humanizarlos).

En este caso concreto, puntual, la respuesta de Bard es definitivamente más precisa. Y si bien se nota cierta tendencia a la repetición, todos los párrafos aportan elementos sobre el tema. En cuanto a los ejemplos del final, muestran variantes que sus competidores no, ya que ChatGPT se limita a la licencia GPL, que es la más conocida y que está centrada en el software, por lo que no se exhibe la incidencia del Copyleft más allá del movimiento de Software Libre.

Es posible que con las sucesivas mejoras y entrenamientos, los bots brinden próximamente respuestas más certeras. En cualquier caso, se los ve bastante limitados como para sus respuestas puedan ser copiadas y pegadas por un alumno para sacar una buena calificación, sobre todo si las preguntas de los exámenes apuntan a poner en juego los conceptos y no a una mera repetición del contenido bibliográfico.

Las tres respuestas relevadas aquí muestran más potencial como disparadores que como fuente de consulta. De todos modos, será indispensable para la actividad docente permanecer al tanto de la evolución de estas herramientas.

Bender, Emily M., Timnit Gebru, Angelina McMillan-Major, y Shmargaret Shmitchell. 2021. «On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜». Pp. 610-23 en Proceedings of the 2021 ACM conference on fairness, accountability, and transparency.

Beutel, Gernot, Eline Geerits, y Jan T. Kielstein. 2023. «Artificial hallucination: GPT on LSD?» Critical Care 27(1):148.

Hallal, Kassem, Rasha Hamdan, y Sami Tlais. 2023. «Exploring the potential of AI-Chatbots in organic chemistry: An assessment of ChatGPT and bard». Computers and Education: Artificial Intelligence 100170.

Malinka, Kamil, Martin Peresíni, Anton Firc, Ondrej Hujnak, y Filip Janus. 2023. «On the educational impact of ChatGPT: Is Artificial Intelligence ready to obtain a university degree?» Pp. 47-53 en Proceedings of the 2023 Conference on Innovation and Technology in Computer Science Education V. 1.

McGowan, Alessia, Yunlai Gui, Matthew Dobbs, Sophia Shuster, Matthew Cotter, Alexandria Selloni, Marianne Goodman, Agrima Srivastava, Guillermo A. Cecchi, y Cheryl M. Corcoran. 2023. «ChatGPT and Bard exhibit spontaneous citation fabrication during psychiatry literature search». Psychiatry Research 326:115334.

Rahsepar, Amir Ali, Neda Tavakoli, Grace Hyun J. Kim, Cameron Hassani, Fereidoun Abtin, y Arash Bedayat. 2023. «How AI Responds to Common Lung Cancer Questions: ChatGPT vs Google Bard». Radiology 307(5):e230922.

Rudolph, Jürgen, Shannon Tan, y Samson Tan. 2023. «War of the chatbots: Bard, Bing Chat, ChatGPT, Ernie and beyond. The new AI gold rush and its impact on higher education». Journal of Applied Learning and Teaching 6(1).

Salvagno, Michele, Fabio Silvio Taccone, y Alberto Giovanni Gerli. 2023. «Artificial intelligence hallucinations». Critical Care 27(1):1-2.

Wu, Tianyu, Shizhu He, Jingping Liu, Siqi Sun, Kang Liu, Qing-Long Han, y Yang Tang. 2023. «A brief overview of ChatGPT: The history, status quo and potential future development». IEEE/CAA Journal of Automatica Sinica 10(5):1122-36.

 

Next Post

La venganza de los brutos

La venganza de los brutos No es exactamente un deja-vu, pero se parece: un nuevo gobierno acaba de asumir y de inmediato reinicia el desmantelamiento del sistema científico-tecnológico público argentino. Lo novedoso en este 2024, acaso, es la magnitud del desguace y la violencia retórica y física de la que […]

Subscribe US Now